論文の概要: Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering
- arxiv url: http://arxiv.org/abs/2601.14470v1
- Date: Tue, 20 Jan 2026 20:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.146894
- Title: Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering
- Title(参考訳): Tokenomics: エージェントソフトウェアエンジニアリングにおけるトークンの使い方の定量化
- Authors: Mohamad Salim, Jasmine Latendresse, SayedHassan Khatoonabadi, Emad Shihab,
- Abstract要約: SDLC(Software Development Life Cycle)におけるLCM-MAシステムにおけるトークン消費パターンの分析を行う。
GPT-5推論モデルを用いて、ChatDevフレームワークによって実行される30のソフトウェア開発タスクの実行トレースを分析する。
予備的な結果は、反復コードレビューの段階が平均59.4%のトークン消費の大多数を占めていることを示している。
- 参考スコア(独自算出の注目度): 4.812321790984494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based Multi-Agent (LLM-MA) systems are increasingly applied to automate complex software engineering tasks such as requirements engineering, code generation, and testing. However, their operational efficiency and resource consumption remain poorly understood, hindering practical adoption due to unpredictable costs and environmental impact. To address this, we conduct an analysis of token consumption patterns in an LLM-MA system within the Software Development Life Cycle (SDLC), aiming to understand where tokens are consumed across distinct software engineering activities. We analyze execution traces from 30 software development tasks performed by the ChatDev framework using a GPT-5 reasoning model, mapping its internal phases to distinct development stages (Design, Coding, Code Completion, Code Review, Testing, and Documentation) to create a standardized evaluation framework. We then quantify and compare token distribution (input, output, reasoning) across these stages. Our preliminary findings show that the iterative Code Review stage accounts for the majority of token consumption for an average of 59.4% of tokens. Furthermore, we observe that input tokens consistently constitute the largest share of consumption for an average of 53.9%, providing empirical evidence for potentially significant inefficiencies in agentic collaboration. Our results suggest that the primary cost of agentic software engineering lies not in initial code generation but in automated refinement and verification. Our novel methodology can help practitioners predict expenses and optimize workflows, and it directs future research toward developing more token-efficient agent collaboration protocols.
- Abstract(参考訳): LLMベースのMulti-Agent (LLM-MA) システムは、要求工学、コード生成、テストといった複雑なソフトウェアエンジニアリングタスクの自動化にますます応用されている。
しかし、その運用効率と資源消費はよく理解されていないため、予測不可能なコストと環境への影響により実践的な採用を妨げている。
そこで我々は,SDLC(Software Development Life Cycle)におけるLCM-MAシステムにおけるトークン消費パターンの分析を行い,異なるソフトウェアエンジニアリング活動においてトークンがどこに消費されているかを理解することを目的とした。
GPT-5推論モデルを用いて、ChatDevフレームワークによって実行される30のソフトウェア開発タスクの実行トレースを分析し、内部フェーズを異なる開発ステージ(設計、コーディング、コード補完、コードレビュー、テスト、ドキュメント)にマッピングし、標準化された評価フレームワークを作成します。
次に、これらのステージ間でトークンの分布(入力、出力、推論)を定量化し比較します。
予備的な結果は、反復コードレビューの段階が平均59.4%のトークン消費の大多数を占めていることを示している。
さらに,入力トークンは平均53.9%の消費率で一貫して最大のシェアを占めており,エージェント協調において潜在的に有意な非効率性を示す実証的な証拠を提供する。
この結果から,エージェントソフトウェア工学の主なコストは,初期コード生成ではなく,自動修正と検証にあることが示唆された。
提案手法は,費用予測やワークフローの最適化に有効であり,トークン効率の高いエージェント協調プロトコルの開発に向けた今後の研究を導くものである。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - A Process Mining-Based System For The Analysis and Prediction of Software Development Workflows [33.72751145910978]
CodeSightは、ソフトウェア開発における期限順守を期待するために設計されたエンドツーエンドのシステムである。
GitHubから直接開発とデプロイメントデータをキャプチャして、詳細な分析のためにプロセスマイニングログに変換する。
CodeSightはLSTMモデルを採用し、シーケンシャルなアクティビティトレースと静的な特徴に基づいて残りのPR解像度時間を予測する。
論文 参考訳(メタデータ) (2025-10-29T20:13:46Z) - Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents [23.476042888072293]
コード大言語モデル(CodeLLMs)とエージェントは、複雑なソフトウェアエンジニアリングタスクに取り組む上で大きな可能性を示しています。
本稿では,CodeLLMとエージェントの既存のベンチマークを総合的にレビューし,461件の関連論文から181件のベンチマークを調査し分析する。
論文 参考訳(メタデータ) (2025-05-08T14:27:45Z) - Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks [0.0]
本研究は,CoD(Chain of Draft)法をソフトウェア工学に拡張する。
すべてのCoD変種は、Chain of Thought (CoT)よりもかなり少ないトークンを使用した。
CoDの変種は、CoTのコード品質の90%以上を、正確性、互換性、保守性を含む主要なメトリクスで維持する。
論文 参考訳(メタデータ) (2025-03-12T07:44:18Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。