Fugu-MT 論文翻訳(概要): AI Observability for Developer Productivity Tools: Bridging Cost Awareness and Code Quality

論文の概要: AI Observability for Developer Productivity Tools: Bridging Cost Awareness and Code Quality

arxiv url: http://arxiv.org/abs/2604.17092v1
Date: Sat, 18 Apr 2026 18:07:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.329451
Title: AI Observability for Developer Productivity Tools: Bridging Cost Awareness and Code Quality
Title（参考訳）: 開発者の生産性ツールのためのAI可観測性 - コスト意識とコード品質のブリッジ
Authors: Happy Bhati, Twinkll Sisodia,
Abstract要約: 開発者の生産性ツールに対するAI可観測性に対する統一的なアプローチを提案する。リアルタイムトークントラッキング、Prometheusモデル価格レジストリ、レスポンスバリデーション、コスト分析をひとつのダッシュボードに統合します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As AI-assisted development tools proliferate, developers face a growing challenge: understanding the cost, quality, and behavioral patterns of AI interactions across their workflow. We present a unified approach to AI observability for developer productivity tools, combining real-time token tracking, configurable model pricing registries, response validation, and cost analytics into a single-pane dashboard. Our work synthesizes two complementary systems -- Workstream, a developer productivity dashboard that centralizes pull requests, Jira tasks, and AI code reviews; and an AI observability summarizer that monitors inference workloads with Prometheus-backed metrics and multi-provider LLM gateways. We describe the architectural patterns adopted, the implementation of real token tracking from provider APIs (replacing heuristic estimation), a 24-model pricing registry, response validation pipelines, LLM-powered review intelligence, and exportable reports. Our evaluation on a six-month development workflow shows the system captures per-review cost with less than 2% variance from provider billing and reduces time-to-insight for AI usage patterns by an order of magnitude compared to manual tracking.
Abstract（参考訳）: AI支援開発ツールの普及に伴い、開発者は、ワークフロー全体にわたるAIインタラクションのコスト、品質、行動パターンを理解するという、増大する課題に直面します。我々は、リアルタイムトークン追跡、構成可能なモデル価格登録、応答検証、コスト分析を単一のダッシュボードに組み込んだ、開発者の生産性ツールのためのAI可観測性に対する統一的なアプローチを提案する。私たちの作業は、2つの補完的なシステム - Workstream、プルリクエストを集中する開発者生産性ダッシュボード、Jiraタスク、AIコードレビュー — と、Prometheusが支援するメトリクスとマルチプロファイラLDMゲートウェイを備えた推論ワークロードを監視するAI可観測性要約器 — を合成しています。採用されているアーキテクチャパターン、プロバイダAPIからの実際のトークン追跡の実装(ヒューリスティックな見積の置き換え)、24モデル価格レジストリ、応答検証パイプライン、LCMを利用したレビューインテリジェンス、エクスポート可能なレポートについて説明する。 6ヶ月の開発ワークフローで評価したところ、システムはプロバイダ課金から2%未満のばらつきでレビュー毎のコストをキャプチャし、手動トラッキングと比較してAI使用パターンの時間監視を桁違いに削減している。

関連論文リスト

AVDA: Autonomous Vibe Detection Authoring for Cybersecurity [0.1633272850273525]
AVDAは、モデルコンテキストプロトコル(MCP)を活用して、組織コンテキストをAI支援コード生成に統合することで検出を自動化するフレームワークである。我々は,多種多様な生産検出コーパスと最先端LCMの3つのオーサリング戦略 – Baseline, Sequential, Agentic – を評価した。その結果,エージェント品質の87%をトークンコストの40倍以下で達成できた。
論文参考訳（メタデータ） (2026-03-26T21:52:33Z)
Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering [4.812321790984494]
SDLC(Software Development Life Cycle)におけるLCM-MAシステムにおけるトークン消費パターンの分析を行う。 GPT-5推論モデルを用いて、ChatDevフレームワークによって実行される30のソフトウェア開発タスクの実行トレースを分析する。予備的な結果は、反復コードレビューの段階が平均59.4%のトークン消費の大多数を占めていることを示している。
論文参考訳（メタデータ） (2026-01-20T20:52:14Z)
PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。 PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文参考訳（メタデータ） (2025-11-24T17:09:43Z)
Budget-Aware Tool-Use Enables Effective Agent Scaling [82.6942342482552]
大規模言語モデル(LLM)におけるタスク間のテスト時間計算のスケーリングによるパフォーマンス向上本研究では,これらのエージェントを,Web検索エージェントを中心に,明示的なツールコール予算の下で効果的にスケールする方法について検討する。私たちは、エージェントに継続的な予算意識を提供する軽量プラグインであるBudget Trackerを紹介します。
論文参考訳（メタデータ） (2025-11-21T07:18:55Z)
Automated Multi-Agent Workflows for RTL Design [13.229297320467332]
本稿では,RTLコード生成のためのエージェントタスクを自動生成するマルチエージェントフレームワークであるVeriMaASを提案する。提案手法は,微調整ベースライン上でのpass@kの合成性能を5-7%向上させる。
論文参考訳（メタデータ） (2025-09-24T14:44:28Z)
The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文参考訳（メタデータ） (2025-06-04T14:37:54Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文参考訳（メタデータ） (2024-12-12T18:59:27Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。