論文の概要: The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective
- arxiv url: http://arxiv.org/abs/2506.04301v1
- Date: Wed, 04 Jun 2025 14:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.341305
- Title: The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective
- Title(参考訳): 動的推論のコスト:AIエージェントの最小化とAIインフラストラクチャの観点からのテスト時間スケーリング
- Authors: Jiin Kim, Byeongjun Shin, Jinha Chung, Minsoo Rhu,
- Abstract要約: 大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 3.0868637098088403
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-language-model (LLM)-based AI agents have recently showcased impressive versatility by employing dynamic reasoning, an adaptive, multi-step process that coordinates with external tools. This shift from static, single-turn inference to agentic, multi-turn workflows broadens task generalization and behavioral flexibility, but it also introduces serious concerns about system-level cost, efficiency, and sustainability. This paper presents the first comprehensive system-level analysis of AI agents, quantifying their resource usage, latency behavior, energy consumption, and datacenter-wide power consumption demands across diverse agent designs and test-time scaling strategies. We further characterize how AI agent design choices, such as few-shot prompting, reflection depth, and parallel reasoning, impact accuracy-cost tradeoffs. Our findings reveal that while agents improve accuracy with increased compute, they suffer from rapidly diminishing returns, widening latency variance, and unsustainable infrastructure costs. Through detailed evaluation of representative agents, we highlight the profound computational demands introduced by AI agent workflows, uncovering a looming sustainability crisis. These results call for a paradigm shift in agent design toward compute-efficient reasoning, balancing performance with deployability under real-world constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのAIエージェントは最近、外部ツールと協調する適応型マルチステッププロセスである動的推論(Dynamic reasoning)を採用することで、印象的な汎用性を示した。
この静的なシングルターン推論からエージェント的なマルチターンワークフローへの移行は、タスクの一般化と振る舞いの柔軟性を広げる一方で、システムレベルのコスト、効率、持続可能性に関する深刻な懸念ももたらします。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延挙動,エネルギー消費,データセンター全体の電力消費要求を多種多様なエージェント設計とテストタイムスケーリング戦略で定量化する。
我々はさらに、少数ショットプロンプト、反射深度、並列推論、精度とコストのトレードオフなど、AIエージェントがどう選択するかを特徴付ける。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
代表エージェントの詳細な評価を通じて、AIエージェントのワークフローによってもたらされる深い計算要求を強調し、不安定な持続可能性危機を明らかにする。
これらの結果から,実世界の制約下での性能とデプロイ可能性のバランスをとることにより,エージェント設計を計算効率のよい推論へとパラダイムシフトさせることが求められている。
関連論文リスト
- EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - Multi-Agent Collaborative Intrusion Detection for Low-Altitude Economy IoT: An LLM-Enhanced Agentic AI Framework [60.72591149679355]
低高度経済の急速な拡大により、インターネット・オブ・モノ(LAE-IoT)ネットワークは前例のないセキュリティ上の課題を生んだ。
従来の侵入検知システムは、空中IoT環境のユニークな特徴に対処できない。
LAE-IoTネットワークにおける侵入検出を強化するための大規模言語モデル(LLM)対応エージェントAIフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:25Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Efficiency-Aware Computational Intelligence for Resource-Constrained Manufacturing Toward Edge-Ready Deployment [8.383160350994816]
産業用サイバー物理システムは、異質なセンシング、ダイナミクス、シフトプロセス条件の下で機能する。
エッジデバイスはレイテンシ、帯域幅、エネルギの厳しい制限に直面している。
これらの課題に動機づけられたこの論文は、データリーン、物理認識、デプロイ可能なインテリジェンスを可能にする、効率的な基盤となる計算フレームワークを開発する。
論文 参考訳(メタデータ) (2025-12-10T05:08:55Z) - AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。
AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。
予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文 参考訳(メタデータ) (2025-11-13T15:14:47Z) - Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives [2.7295959384567356]
Co-Investigator AIは、SAR(Suspicious Activity Reports)の作成に最適化されたエージェントフレームワークであり、従来の方法よりも大幅に高速で精度が高い。
我々は、SARの草案作成を効率化し、物語を規制上の期待と一致させ、コンプライアンスチームが高次の分析作業に集中できるようにする能力を示します。
論文 参考訳(メタデータ) (2025-09-10T08:16:04Z) - Towards Pervasive Distributed Agentic Generative AI -- A State of The Art [0.0]
知的エージェントとLarge Language Models(LLM)の急速な進歩は、広範にわたるコンピューティング分野を変革している。
この調査では、LLMエージェントのアーキテクチャコンポーネントの概要と、さまざまなシナリオにおけるデプロイメントと評価について概説する。
リソース制約のあるデバイス上でのローカルおよび分散実行を含む、最先端のエージェントデプロイメント戦略とアプリケーションを強調している。
論文 参考訳(メタデータ) (2025-06-16T10:15:06Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Will Agents Replace Us? Perceptions of Autonomous Multi-Agent AI [0.0]
本研究は、AIエージェントの能力、影響、およびガバナンスに関する調査に対する130人の参加者からの回答を分析する。
我々は、AIがプログラマを置き換える予定のタイムラインを調べ、デプロイの障壁を認識し、エージェントが決定を下すときの責任に関する信念を調べます。
論文 参考訳(メタデータ) (2025-06-01T11:02:52Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Confidence-Regulated Generative Diffusion Models for Reliable AI Agent Migration in Vehicular Metaverses [55.70043755630583]
車両用AIエージェントには、環境認識、意思決定、行動実行能力が与えられている。
本稿では、信頼性の高い車両用AIエージェントマイグレーションフレームワークを提案し、信頼性の高い動的マイグレーションと効率的なリソーススケジューリングを実現する。
我々は,AIエージェントのマイグレーション決定を効率的に生成する信頼性制御型生成拡散モデル(CGDM)を開発した。
論文 参考訳(メタデータ) (2025-05-19T05:04:48Z) - Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey [59.52058740470727]
エッジクラウドコラボレーティブコンピューティング(ECCC)は、現代のインテリジェントアプリケーションの計算要求に対処するための重要なパラダイムとして登場した。
AIの最近の進歩、特にディープラーニングと大規模言語モデル(LLM)は、これらの分散システムの能力を劇的に向上させてきた。
この調査は、基本的なアーキテクチャ、技術の実現、新しいアプリケーションに関する構造化されたチュートリアルを提供する。
論文 参考訳(メタデータ) (2025-05-03T13:55:38Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z) - Agentic AI-Driven Technical Troubleshooting for Enterprise Systems: A Novel Weighted Retrieval-Augmented Generation Paradigm [0.0]
本稿では,企業の技術的トラブルシューティングに適したRAG(Weighted Retrieval-Augmented Generation)フレームワーク上に構築されたエージェントAIソリューションを提案する。
製品マニュアル、内部知識ベース、FAQ、トラブルシューティングガイドなどの検索ソースを動的に重み付けすることで、最も関連性の高いデータを優先順位付けする。
大規模エンタープライズデータセットに関する予備評価では、トラブルシューティングの精度を改善し、解決時間を短縮し、さまざまな技術的課題に適応する上で、フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2024-12-16T17:32:38Z) - Adaptive Stream Processing on Edge Devices through Active Inference [5.5676731834895765]
アクティブ推論(AIF)に基づく新しい機械学習パラダイムを提案する。
AIFは、脳が長期的サプライズを減らすために感覚情報を常に予測し、評価する方法を記述している。
本手法は意思決定の完全透明性を保証し,結果の解釈とトラブルシューティングを無力化する。
論文 参考訳(メタデータ) (2024-09-26T15:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。