論文の概要: Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
- arxiv url: http://arxiv.org/abs/2506.14234v1
- Date: Tue, 17 Jun 2025 06:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.363221
- Title: Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
- Title(参考訳): Xolver: オリンピックチームのように、ホロスティックな経験を積んだマルチエージェント推論
- Authors: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez,
- Abstract要約: Xolverはトレーニングフリーのマルチエージェント推論フレームワークである。
外部と自己検索を含む多様な体験モダリティを統合している。
Xolverは、特殊推論エージェントを一貫して上回っている。
- 参考スコア(独自算出の注目度): 2.1492061252797536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite impressive progress on complex reasoning, current large language models (LLMs) typically operate in isolation - treating each problem as an independent attempt, without accumulating or integrating experiential knowledge. In contrast, expert problem solvers - such as Olympiad or programming contest teams - leverage a rich tapestry of experiences: absorbing mentorship from coaches, developing intuition from past problems, leveraging knowledge of tool usage and library functionality, adapting strategies based on the expertise and experiences of peers, continuously refining their reasoning through trial and error, and learning from other related problems even during competition. We introduce Xolver, a training-free multi-agent reasoning framework that equips a black-box LLM with a persistent, evolving memory of holistic experience. Xolver integrates diverse experience modalities, including external and self-retrieval, tool use, collaborative interactions, agent-driven evaluation, and iterative refinement. By learning from relevant strategies, code fragments, and abstract reasoning patterns at inference time, Xolver avoids generating solutions from scratch - marking a transition from isolated inference toward experience-aware language agents. Built on both open-weight and proprietary models, Xolver consistently outperforms specialized reasoning agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high. With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24 (94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) - highlighting holistic experience learning as a key step toward generalist agents capable of expert-level reasoning. Code and data are available at https://kagnlp.github.io/xolver.github.io/.
- Abstract(参考訳): 複雑な推論の顕著な進歩にもかかわらず、現在の大規模言語モデル(LLM)は、通常、独立した試みとして、経験的な知識を蓄積したり統合したりすることなく、独立して動作する。
対照的に、Olympiadやプログラミングコンテストチームといった専門家の問題解決者は、コーチからのメンターシップの吸収、過去の問題からの直観の発達、ツールの使用法とライブラリ機能の知識の活用、ピアの専門知識と経験に基づく戦略の適応、トライアルとエラーによる推論の継続的な改善、競争中の他の関連する問題からの学習といった、豊富な経験のタペストリーを活用する。
我々は,学習不要なマルチエージェント推論フレームワークであるXolverを紹介した。
Xolverは、外部および自己検索、ツールの使用、協調的相互作用、エージェント駆動評価、反復的改善など、さまざまなエクスペリエンスモダリティを統合している。
関連する戦略やコードフラグメント、推論時に抽象的な推論パターンから学ぶことで、Xolverはスクラッチからソリューションを生成することを避けます。
オープンウェイトモデルとプロプライエタリモデルの両方で構築されたXolverは、特別な推論エージェントを一貫して上回っている。
軽量のバックボーン(例えばQWQ-32B)でも、Qwen3-235B、Gemini 2.5 Pro、o3、o4-mini-highといった先進モデルを上回っている。
o3-mini-highでは、GSM8K (98.1%)、AIME'24 (94.4%)、AIME'25 (93.7%)、Math-500 (99.8%)、LiveCodeBench-V5 (91.6%)の新たな最良の結果を達成する。
コードとデータはhttps://kagnlp.github.io/xolver.github.io/で公開されている。
関連論文リスト
- $C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.218102495632937]
エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。
具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。
本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文 参考訳(メタデータ) (2025-05-24T15:25:44Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning [3.187381965457262]
大型言語モデル(LLM)を駆使したエージェントは、Minecraftのような世界にオープンエンドの能力を持つことを約束する。
本稿では,文化的生涯学習のための生成型フレームワークであるMindForgeを提案する。
論文 参考訳(メタデータ) (2024-11-20T02:10:44Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Learning from Multiple Independent Advisors in Multi-agent Reinforcement
Learning [15.195932300563541]
本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。
我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:00:23Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。