論文の概要: A\textsuperscript{2}FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
- arxiv url: http://arxiv.org/abs/2510.12838v1
- Date: Mon, 13 Oct 2025 17:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.350046
- Title: A\textsuperscript{2}FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
- Title(参考訳): A\textsuperscript{2}FM:ツール対応ハイブリッド推論のための適応エージェント基礎モデル
- Authors: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou,
- Abstract要約: 本稿では,アダプティブ・エージェント・ファンデーション・モデル(Atextsuperscript2FM)を提案する。
Atextsuperscript2FMはBrowseCompで13.4%、AIME25で70.4%、HLEで16.7%を達成している。
特に、適応実行は正しい解答コストあたり0.00487ドルを、推論に対して45.2%、エージェントに対して33.5%のコストで通過させる。
- 参考スコア(独自算出の注目度): 41.430932109297885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models split into two families: reasoning-centric LLMs, which strengthen internal chain-of-thought reasoning but cannot invoke external tools, and agentic LLMs, which learn to interact with environments and leverage tools but often lag in deep reasoning. This divide arises from fundamentally different training objectives, leading to mismatched strengths and inefficiency on simple queries, where both families tend to overthink or over-call tools. In this work, we present Adaptive Agent Foundation Model (A\textsuperscript{2}FM), a unified framework that follows a route-then-align principle: the model first learns task-aware routing and then aligns mode-specific trajectories under a shared backbone. To address the inefficiency gap, we introduce a third mode-instant-that handles simple queries directly, preventing unnecessary reasoning or tool calls while complementing the agentic and reasoning modes. To jointly enhance accuracy and efficiency, we propose Adaptive Policy Optimization (APO), which enforces adaptive sampling across modes and applies a cost-regularized reward. On the 32B scale, A\textsuperscript{2}FM achieves 13.4\% on BrowseComp, 70.4\% on AIME25, and 16.7\% on HLE, setting new SOTA among comparable models and performing competitively with frontier LLMs across agentic, reasoning, and general benchmarks. Notably, the adaptive execution achieves a cost of pass of only \$0.00487 per correct answer-cutting cost by 45.2\% relative to reasoning and 33.5\% relative to agentic, thus delivering substantially higher cost efficiency while maintaining comparable accuracy.
- Abstract(参考訳): 推論中心のLLMは内部チェーンの推論を強化するが、外部ツールを起動できない、エージェントのLLMは環境と対話し、ツールを活用するが、深い推論に遅れることが多い。
この分離は、基本的に異なる訓練目標から生じ、単純なクエリに対して、両家族が過度に考えるか、過剰にコールする傾向がある、誤った強みと非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル(A\textsuperscript{2}FM)を提案する。このフレームワークは,まずタスク認識型ルーティングを学習し,次にモード固有のトラジェクトリを共有バックボーンの下で整列する。
不効率に対処するため,単純なクエリを直接処理し,エージェントと推論モードを補完しながら不要な推論やツールコールを防止できる第3のモードインスタントを導入する。
精度と効率を両立させるため,適応政策最適化 (APO) を提案する。
32Bスケールでは、A\textsuperscript{2}FMはBrowseCompで13.4\%、AIME25で70.4\%、HLEで16.7\%を達成する。
特に、適応実行は、推理に対して45.2\%、エージェントに対して33.5\%の正解カットコスト当たり0.00487米ドルのパスコストを達成し、同等の精度を維持しながらコスト効率を大幅に向上させる。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - MAXS: Meta-Adaptive Exploration with LLM Agents [48.04723638253802]
MaxSはLarge Language Model (LLM) Agentsをベースにしたメタ適応推論フレームワークである。
MAXSは、いくつかのステップを進む推論パスを拡張するために、ルックアヘッド戦略を採用している。
ステップの一貫性のばらつきとステップ間のトレンドスロープを組み合わせることで、安定で一貫性があり、高い値の推論ステップを共同で選択する。
論文 参考訳(メタデータ) (2026-01-14T07:48:00Z) - ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning [40.2017873619555]
ESearch-R1はコスト認識型推論フレームワークである。
対話型対話(Ask)、エピソードメモリ検索(GetMemory)、物理ナビゲーション(Navigate)を単一の決定プロセスに統合する。
総運用コストを約50%削減し、タスク成功率を向上させる。
論文 参考訳(メタデータ) (2025-12-21T02:45:08Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data [12.136710894967088]
本稿では,ワークフロー適応を学習型確率型プログラムとして再放送するフレームワークであるType-Compliant Adaptation Cascadesを紹介する。
経験的に、TACは最先端のプロンプト最適化ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-08-25T17:36:21Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [8.532849325470632]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning [16.99490636203893]
パラメータ効率とモデル表現率のバランスをとる適応型マルチヘッドLoRA法であるtextscRavanを提案する。
ビジョンと言語ベンチマークの実験では、textscRavanは以前のパラメータ効率の基準線よりも2-8%精度が向上している。
論文 参考訳(メタデータ) (2025-06-05T20:28:02Z) - Adaptive Thinking via Mode Policy Optimization for Social Language Agents [75.3092060637826]
動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
論文 参考訳(メタデータ) (2025-05-04T15:39:58Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Fleet of Agents: Coordinated Problem Solving with Large Language Models [10.167121757937062]
Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
論文 参考訳(メタデータ) (2024-05-07T09:36:23Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。