論文の概要: MAXS: Meta-Adaptive Exploration with LLM Agents
- arxiv url: http://arxiv.org/abs/2601.09259v1
- Date: Wed, 14 Jan 2026 07:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.319649
- Title: MAXS: Meta-Adaptive Exploration with LLM Agents
- Title(参考訳): MAXS: LLMエージェントによるメタ適応探索
- Authors: Jian Zhang, Zhiyuan Wang, Zhangqi Wang, Yu He, Haoran Luo, li yuan, Lingling Zhang, Rui Mao, Qika Lin, Jun Liu,
- Abstract要約: MaxSはLarge Language Model (LLM) Agentsをベースにしたメタ適応推論フレームワークである。
MAXSは、いくつかのステップを進む推論パスを拡張するために、ルックアヘッド戦略を採用している。
ステップの一貫性のばらつきとステップ間のトレンドスロープを組み合わせることで、安定で一貫性があり、高い値の推論ステップを共同で選択する。
- 参考スコア(独自算出の注目度): 48.04723638253802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) Agents exhibit inherent reasoning abilities through the collaboration of multiple tools. However, during agent inference, existing methods often suffer from (i) locally myopic generation, due to the absence of lookahead, and (ii) trajectory instability, where minor early errors can escalate into divergent reasoning paths. These issues make it difficult to balance global effectiveness and computational efficiency. To address these two issues, we propose meta-adaptive exploration with LLM agents https://github.com/exoskeletonzj/MAXS, a meta-adaptive reasoning framework based on LLM Agents that flexibly integrates tool execution and reasoning planning. MAXS employs a lookahead strategy to extend reasoning paths a few steps ahead, estimating the advantage value of tool usage, and combines step consistency variance and inter-step trend slopes to jointly select stable, consistent, and high-value reasoning steps. Additionally, we introduce a trajectory convergence mechanism that controls computational cost by halting further rollouts once path consistency is achieved, enabling a balance between resource efficiency and global effectiveness in multi-tool reasoning. We conduct extensive empirical studies across three base models (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) and five datasets, demonstrating that MAXS consistently outperforms existing methods in both performance and inference efficiency. Further analysis confirms the effectiveness of our lookahead strategy and tool usage.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複数のツールの協調を通じて固有の推論能力を示す。
しかし、エージェント推論の間、既存のメソッドがしばしば苦しむ
(i)外見の欠如による局所的な筋力発生、及び
(II)軌道不安定性(英語版)は、小さな初期誤差が分岐した推論経路にエスカレートする可能性がある。
これらの問題により、グローバルな効率性と計算効率のバランスをとるのが難しくなる。
これら2つの問題に対処するため,私たちは,LLMエージェントを柔軟に統合したメタ適応推論フレームワークである,https://github.com/exoskeletonzj/MAXSを提案する。
MAXSは、先進的な推論パスを拡張し、ツール使用の利点を推定し、ステップ一貫性のばらつきとステップ間トレンドスロープを組み合わせて、安定した、一貫性のある、高価値な推論ステップを共同で選択する。
さらに,経路整合性が達成されれば,さらなるロールアウトを停止して計算コストを制御するトラジェクトリ収束機構を導入し,マルチツール推論における資源効率とグローバル効率のバランスをとる。
我々は、3つのベースモデル(MiMo-VL-7B、Qwen2.5-VL-7B、Qwen2.5-VL-32B)と5つのデータセットにまたがって広範な実験を行い、MAXSが性能と推論効率の両方において既存の手法より一貫して優れていることを示した。
さらなる分析により、我々のルックアヘッド戦略とツール利用の有効性が確かめられる。
関連論文リスト
- Reasoning and Tool-use Compete in Agentic RL:From Quantifying Interference to Disentangled Tuning [26.401906729658688]
Agentic Reinforcement Learning (ARL) は、複雑なタスクを解決するために、推論と外部ツールの実行をインターリーブするために、大きな言語モデルをトレーニングすることに焦点を当てている。
ほとんどの既存のARLメソッドは、推論とツールの使用行動の両方をサポートするために単一の共有モデルパラメータをトレーニングしている。
これらの2つの能力は、しばしば不整合勾配方向を誘導し、共同最適化の有効性を損なう訓練の干渉を引き起こす。
DART(Disentangled Action Reasoning Tuning)は、推論のためのパラメータ更新とツール使用を分離したローランクで明示的に分離する、シンプルで効率的なフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T03:19:22Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。
第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。
第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文 参考訳(メタデータ) (2025-10-02T09:28:13Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。
彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。
本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文 参考訳(メタデータ) (2025-07-02T18:27:42Z) - Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation [5.903105418868711]
食品準備シナリオに基づいた新しいベンチマークである textbfQuARC (Quantity, Analysis, Relative positioning, Collision) を導入する。
現在のMLLMの2つの大きな制限に対処する。
提案手法はベンチマークで76.7%の成功率を実現し,ViLaベースラインを著しく上回った。
論文 参考訳(メタデータ) (2025-03-17T11:01:02Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。