論文の概要: AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2510.06261v1
- Date: Sun, 05 Oct 2025 15:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.073174
- Title: AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning
- Title(参考訳): AlphaApollo: ディープエージェント推論のための自己進化システムへの基礎モデルと専門ツールのオーケストレーション
- Authors: Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Linrui Xu, Tian Cheng, Guanyu Jiang, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han,
- Abstract要約: 自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
- 参考スコア(独自算出の注目度): 110.57865233597762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AlphaApollo, a self-evolving agentic reasoning system that aims to address two bottlenecks in foundation model (FM) reasoning-limited model-intrinsic capacity and unreliable test-time iteration. AlphaApollo orchestrates multiple models with professional tools to enable deliberate, verifiable reasoning. It couples (i) a computation tool (Python with numerical and symbolic libraries) and (ii) a retrieval tool (task-relevant external information) to execute exact calculations and ground decisions. The system further supports multi-round, multi-model solution evolution via a shared state map that records candidates, executable checks, and feedback for iterative refinement. In evaluations on AIME 2024/2025 across multiple models, AlphaApollo delivers consistent gains: +5.15% Average@32 and +23.34% Pass@32 for Qwen2.5-14B-Instruct, and +8.91% Average@32 with +26.67% Pass@32 for Llama-3.3-70B-Instruct. Tool-use analysis shows that more than 80% of tool calls are successfully executed, with consistent outperformance of non-tool baselines, thereby lifting the capability ceiling of FMs. More empirical results and implementation details will be updated at https://github.com/tmlr-group/AlphaApollo.
- Abstract(参考訳): 基本モデル(FM)における2つのボトルネックに対処することを目的とした,自己進化型エージェント推論システムであるAlphaApolloについて述べる。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
カップル
(i)計算ツール(数値および記号ライブラリ付きPython)および
二 正確な計算及び根拠決定を行う検索ツール(タスク関連外部情報)。
さらに、候補、実行可能チェック、反復的改善のためのフィードバックを記録可能な共有状態マップを通じて、マルチラウンドでマルチモデルソリューションの進化をサポートする。
AIME 2024/2025の複数のモデルに対する評価において、AlphaApolloは、Qwen2.5-14B-インストラクトに+5.15% Average@32、Qwen2.5-14B-インストラクトに+23.34% Pass@32、Llama-3.3-70B-インストラクトに+26.67% Pass@32を+8.91% Average@32、Llama-3.3-70B-インストラクトに+26.67% Pass@32を提供する。
ツールユース分析は、ツールコールの80%以上が正常に実行され、非ツールベースラインの一貫してパフォーマンスが向上し、FMの能力天井が持ち上げられることを示している。
より経験的な結果と実装の詳細はhttps://github.com/tmlr-group/AlphaApollo.comで更新される。
関連論文リスト
- gpt-oss-120b & gpt-oss-20b Model Card [128.07668730833967]
精度と推論コストのフロンティアを推し進める2つのオープンウェイト推論モデルを提案する。
モデルは効率的な混合型変圧器アーキテクチャを使用しており、大規模な蒸留と強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (2025-08-08T19:24:38Z) - An Auditable Agent Platform For Automated Molecular Optimisation [0.0]
薬物発見は、データ、専門知識、ツールが散在すると、しばしば勢いを失う。
このループを短くするため、分子最適化を自動化するエージェントフレームワークを使用した階層的なツールを構築しました。
論文 参考訳(メタデータ) (2025-08-05T13:41:32Z) - ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。