論文の概要: Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents
- arxiv url: http://arxiv.org/abs/2603.07915v1
- Date: Mon, 09 Mar 2026 03:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.394845
- Title: Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents
- Title(参考訳): Ares: 効率的なLDMエージェントの選択のための適応推論
- Authors: Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang,
- Abstract要約: Aresは、マルチステップエージェントタスク用に調整された、ステップごとの動的推論作業選択のためのフレームワークである。
我々は、ステップ完了に要する最小の推論労力を識別するデータ生成パイプラインを開発する。
ツール使用エージェントのTAU-Bench,ディープ検索エージェントのBrowseComp-Plus,WebエージェントのWebArenaなど,さまざまなエージェントタスクに対してAlesを評価した。
- 参考スコア(独自算出の注目度): 30.48395228595732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern agents powered by thinking LLMs achieve high accuracy through long chain-of-thought reasoning but incur substantial inference costs. While many LLMs now support configurable reasoning levels (e.g., high/medium/low), static strategies are often ineffective: using low-effort modes at every step leads to significant performance degradation, while random selection fails to preserve accuracy or provide meaningful cost reduction. However, agents should reserve high reasoning effort for difficult steps like navigating complex website structures, while using lower-effort modes for simpler steps like opening a target URL. In this paper, we propose Ares, a framework for per-step dynamic reasoning effort selection tailored for multi-step agent tasks. Ares employs a lightweight router to predict the lowest appropriate reasoning level for each step based on the interaction history. To train this router, we develop a data generation pipeline that identifies the minimum reasoning effort required for successful step completion. We then fine-tune the router to predict these levels, enabling plug-and-play integration for any LLM agents. We evaluate Ares on a diverse set of agent tasks, including TAU-Bench for tool use agents, BrowseComp-Plus for deep-research agents, and WebArena for web agents. Experimental results show that Ares reduces reasoning token usage by up to 52.7% compared to fixed high-effort reasoning, while introducing minimal degradation in task success rates.
- Abstract(参考訳): 思考LLMを動力とする現代のエージェントは、長い連鎖推論によって高い精度を達成するが、相当な推論コストがかかる。
LLMは現在、設定可能な推論レベル(例えば、ハイ/メジウム/ロー)をサポートしているが、静的戦略はしばしば非効率である。
しかし、エージェントは複雑なWebサイト構造をナビゲートするといった難しいステップに対して、ターゲットURLを開くといったより単純なステップのために、低便なモードを使用するような、高い推論の労力を確保すべきである。
本稿では,多段階エージェントタスクに適した動的推論作業選択のためのフレームワークであるAlesを提案する。
Aresは軽量ルータを使用して、対話履歴に基づいて各ステップの最小の適切な推論レベルを予測する。
このルータをトレーニングするために、ステップ完了に要する最小の推論労力を識別するデータ生成パイプラインを開発する。
次に、これらのレベルを予測するためにルータを微調整し、どのLLMエージェントに対してもプラグインとプレイの統合を可能にします。
ツール使用エージェントのTAU-Bench,ディープ検索エージェントのBrowseComp-Plus,WebエージェントのWebArenaなど,さまざまなエージェントタスクに対してAlesを評価した。
実験結果から、アレスは固定された高効率推論と比較して推論トークンの使用率を最大52.7%削減し、タスク成功率の低下を最小限に抑えることが示された。
関連論文リスト
- Optimizing Agentic Workflows using Meta-tools [3.3298825663516403]
Agentic AIは、LLMが複雑なタスクを解決するためのツールを動的に推論し、計画し、相互作用することを可能にする。
この作業では、冗長なツール実行パターンを特定し、最適化するフレームワークであるAWO(Agent Optimization)を導入している。
AWO は LLM の呼び出し回数を 11.9% まで削減し、タスク成功率を 4.2% まで引き上げている。
論文 参考訳(メタデータ) (2026-01-29T17:43:08Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - LLM-DSE: Searching Accelerator Parameters with LLM Agents [34.75581582648836]
LLM-DSEは、HLSディレクティブの最適化に特化したマルチエージェントフレームワークである。
我々の探検家は、ルーター、スペシャリスト、アビテーター、批評家の4人のエージェントを調整します。
LLM-DSEは最先端の手法よりも2.55倍の性能向上を実現している。
論文 参考訳(メタデータ) (2025-05-18T01:31:42Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents [5.566936703366701]
Division-of-Thoughts(DoT)は、ローカルとクラウドベースの言語モデル間のシナジーを活用する共同推論フレームワークである。
DoTは平均推論時間とAPIコストを66.12%と83.57%削減し、最高のベースライン手法で同等の推論精度を達成している。
論文 参考訳(メタデータ) (2025-02-06T02:40:25Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。