論文の概要: The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective
- arxiv url: http://arxiv.org/abs/2506.04301v1
- Date: Wed, 04 Jun 2025 14:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.341305
- Title: The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective
- Title(参考訳): 動的推論のコスト:AIエージェントの最小化とAIインフラストラクチャの観点からのテスト時間スケーリング
- Authors: Jiin Kim, Byeongjun Shin, Jinha Chung, Minsoo Rhu,
- Abstract要約: 大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 3.0868637098088403
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-language-model (LLM)-based AI agents have recently showcased impressive versatility by employing dynamic reasoning, an adaptive, multi-step process that coordinates with external tools. This shift from static, single-turn inference to agentic, multi-turn workflows broadens task generalization and behavioral flexibility, but it also introduces serious concerns about system-level cost, efficiency, and sustainability. This paper presents the first comprehensive system-level analysis of AI agents, quantifying their resource usage, latency behavior, energy consumption, and datacenter-wide power consumption demands across diverse agent designs and test-time scaling strategies. We further characterize how AI agent design choices, such as few-shot prompting, reflection depth, and parallel reasoning, impact accuracy-cost tradeoffs. Our findings reveal that while agents improve accuracy with increased compute, they suffer from rapidly diminishing returns, widening latency variance, and unsustainable infrastructure costs. Through detailed evaluation of representative agents, we highlight the profound computational demands introduced by AI agent workflows, uncovering a looming sustainability crisis. These results call for a paradigm shift in agent design toward compute-efficient reasoning, balancing performance with deployability under real-world constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのAIエージェントは最近、外部ツールと協調する適応型マルチステッププロセスである動的推論(Dynamic reasoning)を採用することで、印象的な汎用性を示した。
この静的なシングルターン推論からエージェント的なマルチターンワークフローへの移行は、タスクの一般化と振る舞いの柔軟性を広げる一方で、システムレベルのコスト、効率、持続可能性に関する深刻な懸念ももたらします。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延挙動,エネルギー消費,データセンター全体の電力消費要求を多種多様なエージェント設計とテストタイムスケーリング戦略で定量化する。
我々はさらに、少数ショットプロンプト、反射深度、並列推論、精度とコストのトレードオフなど、AIエージェントがどう選択するかを特徴付ける。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
代表エージェントの詳細な評価を通じて、AIエージェントのワークフローによってもたらされる深い計算要求を強調し、不安定な持続可能性危機を明らかにする。
これらの結果から,実世界の制約下での性能とデプロイ可能性のバランスをとることにより,エージェント設計を計算効率のよい推論へとパラダイムシフトさせることが求められている。
関連論文リスト
- ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Will Agents Replace Us? Perceptions of Autonomous Multi-Agent AI [0.0]
本研究は、AIエージェントの能力、影響、およびガバナンスに関する調査に対する130人の参加者からの回答を分析する。
我々は、AIがプログラマを置き換える予定のタイムラインを調べ、デプロイの障壁を認識し、エージェントが決定を下すときの責任に関する信念を調べます。
論文 参考訳(メタデータ) (2025-06-01T11:02:52Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。
本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。
我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文 参考訳(メタデータ) (2025-05-19T05:04:48Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z) - Agentic AI-Driven Technical Troubleshooting for Enterprise Systems: A Novel Weighted Retrieval-Augmented Generation Paradigm [0.0]
本稿では,企業の技術的トラブルシューティングに適したRAG(Weighted Retrieval-Augmented Generation)フレームワーク上に構築されたエージェントAIソリューションを提案する。
製品マニュアル、内部知識ベース、FAQ、トラブルシューティングガイドなどの検索ソースを動的に重み付けすることで、最も関連性の高いデータを優先順位付けする。
大規模エンタープライズデータセットに関する予備評価では、トラブルシューティングの精度を改善し、解決時間を短縮し、さまざまな技術的課題に適応する上で、フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2024-12-16T17:32:38Z) - Adaptive Stream Processing on Edge Devices through Active Inference [5.5676731834895765]
アクティブ推論(AIF)に基づく新しい機械学習パラダイムを提案する。
AIFは、脳が長期的サプライズを減らすために感覚情報を常に予測し、評価する方法を記述している。
本手法は意思決定の完全透明性を保証し,結果の解釈とトラブルシューティングを無力化する。
論文 参考訳(メタデータ) (2024-09-26T15:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。