論文の概要: APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training
- arxiv url: http://arxiv.org/abs/2510.24397v1
- Date: Tue, 28 Oct 2025 13:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.18978
- Title: APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training
- Title(参考訳): APTBench: プレトレーニング中のベースLLMのベンチマークエージェントポテンシャル
- Authors: Jiarui Qin, Yunjia Xi, Junjie Huang, Renting Rui, Di Yin, Weiwen Liu, Yong Yu, Weinan Zhang, Xing Sun,
- Abstract要約: APTBenchは、現実世界のエージェントタスクと成功した軌道を多重選択やテキスト補完の質問に変換するフレームワークである。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェア工学、深層研究をカバーしている。
既存の汎用ベンチマークと比較すると、APTBenchはモデル下流のパフォーマンスをエージェントとしてより予測的な信号を提供する。
- 参考スコア(独自算出の注目度): 48.20667772172573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of LLM-based agents, there is a growing trend to incorporate agent-specific data into the pre-training stage of LLMs, aiming to better align LLMs with real-world autonomous task execution. However, current pre-training benchmarks primarily focus on isolated and static skills, e.g., common knowledge or mathematical/code reasoning, and fail to reflect model's agentic capabilities. On the other hand, agent benchmarks are typically designed for post-trained models, requiring multi-turn task execution abilities that base models struggle to support. Thus, there is a compelling need for a benchmark that can evaluate agentic potentials during pre-training and guide the model training more effectively. To address this gap, we propose APTBench, a framework that converts real-world agent tasks and successful trajectories into multiple-choice or text completion questions tailored for base models. It focuses on core agentic abilities, e.g., planning and action, and covers key agent scenarios, software engineering and deep research. Compared to existing general-purpose benchmarks, APTBench offers a more predictive signal of a model's downstream performance as an agent, while remaining significantly more lightweight and cost-effective than full-scale, end-to-end agent evaluations after post-training.
- Abstract(参考訳): LLM ベースのエージェントの急速な開発に伴い,エージェント固有のデータを LLM の事前学習段階に組み込むことが,現実の自律的タスク実行と LLM の整合性の向上を目的としている。
しかしながら、現在の事前トレーニングベンチマークは、主に独立した静的スキル(例えば、共通知識や数学的/コード推論)に焦点を当てており、モデルのエージェント能力の反映に失敗している。
一方、エージェントベンチマークは通常、トレーニング後のモデルのために設計されており、ベースモデルがサポートに苦慮するマルチターンタスク実行能力を必要とする。
したがって、事前トレーニング中にエージェントポテンシャルを評価し、モデルトレーニングをより効果的にガイドできるベンチマークが必要である。
このギャップに対処するために,実世界のエージェントタスクと成功した軌道を,ベースモデルに適した複数選択やテキスト補完に変換するフレームワークであるAPTBenchを提案する。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェアエンジニアリング、そして深い研究をカバーします。
既存の汎用ベンチマークと比較すると、APTBenchはエージェントとしてモデルダウンストリームのパフォーマンスをより予測的な信号を提供する一方で、後トレーニング後のフルスケールのエンドツーエンドエージェント評価よりもはるかに軽量でコスト効率が高い。
関連論文リスト
- Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。