論文の概要: A\textsuperscript{2}FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
- arxiv url: http://arxiv.org/abs/2510.12838v1
- Date: Mon, 13 Oct 2025 17:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.350046
- Title: A\textsuperscript{2}FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
- Title(参考訳): A\textsuperscript{2}FM:ツール対応ハイブリッド推論のための適応エージェント基礎モデル
- Authors: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou,
- Abstract要約: 本稿では,アダプティブ・エージェント・ファンデーション・モデル(Atextsuperscript2FM)を提案する。
Atextsuperscript2FMはBrowseCompで13.4%、AIME25で70.4%、HLEで16.7%を達成している。
特に、適応実行は正しい解答コストあたり0.00487ドルを、推論に対して45.2%、エージェントに対して33.5%のコストで通過させる。
- 参考スコア(独自算出の注目度): 41.430932109297885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models split into two families: reasoning-centric LLMs, which strengthen internal chain-of-thought reasoning but cannot invoke external tools, and agentic LLMs, which learn to interact with environments and leverage tools but often lag in deep reasoning. This divide arises from fundamentally different training objectives, leading to mismatched strengths and inefficiency on simple queries, where both families tend to overthink or over-call tools. In this work, we present Adaptive Agent Foundation Model (A\textsuperscript{2}FM), a unified framework that follows a route-then-align principle: the model first learns task-aware routing and then aligns mode-specific trajectories under a shared backbone. To address the inefficiency gap, we introduce a third mode-instant-that handles simple queries directly, preventing unnecessary reasoning or tool calls while complementing the agentic and reasoning modes. To jointly enhance accuracy and efficiency, we propose Adaptive Policy Optimization (APO), which enforces adaptive sampling across modes and applies a cost-regularized reward. On the 32B scale, A\textsuperscript{2}FM achieves 13.4\% on BrowseComp, 70.4\% on AIME25, and 16.7\% on HLE, setting new SOTA among comparable models and performing competitively with frontier LLMs across agentic, reasoning, and general benchmarks. Notably, the adaptive execution achieves a cost of pass of only \$0.00487 per correct answer-cutting cost by 45.2\% relative to reasoning and 33.5\% relative to agentic, thus delivering substantially higher cost efficiency while maintaining comparable accuracy.
- Abstract(参考訳): 推論中心のLLMは内部チェーンの推論を強化するが、外部ツールを起動できない、エージェントのLLMは環境と対話し、ツールを活用するが、深い推論に遅れることが多い。
この分離は、基本的に異なる訓練目標から生じ、単純なクエリに対して、両家族が過度に考えるか、過剰にコールする傾向がある、誤った強みと非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル(A\textsuperscript{2}FM)を提案する。このフレームワークは,まずタスク認識型ルーティングを学習し,次にモード固有のトラジェクトリを共有バックボーンの下で整列する。
不効率に対処するため,単純なクエリを直接処理し,エージェントと推論モードを補完しながら不要な推論やツールコールを防止できる第3のモードインスタントを導入する。
精度と効率を両立させるため,適応政策最適化 (APO) を提案する。
32Bスケールでは、A\textsuperscript{2}FMはBrowseCompで13.4\%、AIME25で70.4\%、HLEで16.7\%を達成する。
特に、適応実行は、推理に対して45.2\%、エージェントに対して33.5\%の正解カットコスト当たり0.00487米ドルのパスコストを達成し、同等の精度を維持しながらコスト効率を大幅に向上させる。
関連論文リスト
- Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data [12.136710894967088]
本稿では,ワークフロー適応を学習型確率型プログラムとして再放送するフレームワークであるType-Compliant Adaptation Cascadesを紹介する。
経験的に、TACは最先端のプロンプト最適化ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-08-25T17:36:21Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [8.532849325470632]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning [16.99490636203893]
パラメータ効率とモデル表現率のバランスをとる適応型マルチヘッドLoRA法であるtextscRavanを提案する。
ビジョンと言語ベンチマークの実験では、textscRavanは以前のパラメータ効率の基準線よりも2-8%精度が向上している。
論文 参考訳(メタデータ) (2025-06-05T20:28:02Z) - Adaptive Thinking via Mode Policy Optimization for Social Language Agents [75.3092060637826]
動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
論文 参考訳(メタデータ) (2025-05-04T15:39:58Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。