論文の概要: AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents
- arxiv url: http://arxiv.org/abs/2602.06485v1
- Date: Fri, 06 Feb 2026 08:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.295013
- Title: AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents
- Title(参考訳): AgentCPM-Explore:エッジスケールエージェントの長距離深部探査の実現
- Authors: Haotian Chen, Xin Cong, Shengda Fan, Yuyang Fu, Ziqin Gong, Yaxi Lu, Yishan Li, Boye Niu, Chengjun Pan, Zijun Song, Huadong Wang, Yesai Wu, Yueying Wu, Zihao Xie, Yukun Yan, Zhong Zhang, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
- 参考スコア(独自算出の注目度): 75.67445299298949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Model (LLM)-based agents have shown remarkable potential for solving complex tasks, existing systems remain heavily reliant on large-scale models, leaving the capabilities of edge-scale models largely underexplored. In this paper, we present the first systematic study on training agentic models at the 4B-parameter scale. We identify three primary bottlenecks hindering the performance of edge-scale models: catastrophic forgetting during Supervised Fine-Tuning (SFT), sensitivity to reward signal noise during Reinforcement Learning (RL), and reasoning degradation caused by redundant information in long-context scenarios. To address the issues, we propose AgentCPM-Explore, a compact 4B agent model with high knowledge density and strong exploration capability. We introduce a holistic training framework featuring parameter-space model fusion, reward signal denoising, and contextual information refinement. Through deep exploration, AgentCPM-Explore achieves state-of-the-art (SOTA) performance among 4B-class models, matches or surpasses 8B-class SOTA models on four benchmarks, and even outperforms larger-scale models such as Claude-4.5-Sonnet or DeepSeek-v3.2 in five benchmarks. Notably, AgentCPM-Explore achieves 97.09% accuracy on GAIA text-based tasks under pass@64. These results provide compelling evidence that the bottleneck for edge-scale models is not their inherent capability ceiling, but rather their inference stability. Based on our well-established training framework, AgentCPM-Explore effectively unlocks the significant, yet previously underestimated, potential of edge-scale models.
- Abstract(参考訳): LLM(Large Language Model)ベースのエージェントは複雑なタスクを解く大きな可能性を示しているが、既存のシステムは大規模モデルに大きく依存しており、エッジスケールモデルの能力はほとんど探索されていない。
本稿では,4Bパラメータスケールでのエージェントモデルのトレーニングに関する最初の体系的研究について述べる。
エッジスケールモデルの性能を損なう主なボトルネックは,監視ファインチューニング(SFT)における破滅的な忘れ,強化学習(RL)における信号ノイズの報知に対する感度,長期コンテキストシナリオにおける冗長な情報による劣化,の3つである。
本稿では,高い知識密度と強力な探索能力を持つコンパクトな4BエージェントモデルであるAgentCPM-Exploreを提案する。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする包括的学習フレームワークを提案する。
ディープサーベイを通じて、エージェントCPM-Exploreは4BクラスのSOTAモデルの間で最先端(SOTA)のパフォーマンスを達成し、4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、さらに5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れています。
特に、AgentCPM-Exploreは、pass@64の下でGAIAテキストベースのタスクで97.09%の精度を達成する。
これらの結果は、エッジスケールモデルのボトルネックが固有の能力天井ではなく、推論安定性であることを示す。
十分に確立されたトレーニングフレームワークに基づいて、AgentCPM-Exploreはエッジスケールモデルの重要かつ過小評価された潜在的可能性を効果的に解放します。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。
上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。
4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文 参考訳(メタデータ) (2025-12-08T12:27:15Z) - Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling [46.593200463657645]
我々は,Klear-Qwen3-AgentForgeという高性能エージェントモデルを学習するための,包括的で完全なオープンソースパイプラインを提案する。
合成データを用いた効率的な教師付き微調整(SFT)とマルチターン強化学習(RL)を併用し,多種多様なエージェントタスクの可能性を解き放つ。
論文 参考訳(メタデータ) (2025-11-08T09:47:27Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z) - Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。