Fugu-MT 論文翻訳(概要): Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

論文の概要: Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team

arxiv url: http://arxiv.org/abs/2506.14234v1
Date: Tue, 17 Jun 2025 06:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.363221
Title: Xolver: Multi-Agent Reasoning with Holistic Experience Learning Just Like an Olympiad Team
Title（参考訳）: Xolver: オリンピックチームのように、ホロスティックな経験を積んだマルチエージェント推論
Authors: Md Tanzib Hosain, Salman Rahman, Md Kishor Morol, Md Rizwan Parvez,
Abstract要約: Xolverはトレーニングフリーのマルチエージェント推論フレームワークである。外部と自己検索を含む多様な体験モダリティを統合している。 Xolverは、特殊推論エージェントを一貫して上回っている。
参考スコア（独自算出の注目度）: 2.1492061252797536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite impressive progress on complex reasoning, current large language models (LLMs) typically operate in isolation - treating each problem as an independent attempt, without accumulating or integrating experiential knowledge. In contrast, expert problem solvers - such as Olympiad or programming contest teams - leverage a rich tapestry of experiences: absorbing mentorship from coaches, developing intuition from past problems, leveraging knowledge of tool usage and library functionality, adapting strategies based on the expertise and experiences of peers, continuously refining their reasoning through trial and error, and learning from other related problems even during competition. We introduce Xolver, a training-free multi-agent reasoning framework that equips a black-box LLM with a persistent, evolving memory of holistic experience. Xolver integrates diverse experience modalities, including external and self-retrieval, tool use, collaborative interactions, agent-driven evaluation, and iterative refinement. By learning from relevant strategies, code fragments, and abstract reasoning patterns at inference time, Xolver avoids generating solutions from scratch - marking a transition from isolated inference toward experience-aware language agents. Built on both open-weight and proprietary models, Xolver consistently outperforms specialized reasoning agents. Even with lightweight backbones (e.g., QWQ-32B), it often surpasses advanced models including Qwen3-235B, Gemini 2.5 Pro, o3, and o4-mini-high. With o3-mini-high, it achieves new best results on GSM8K (98.1%), AIME'24 (94.4%), AIME'25 (93.7%), Math-500 (99.8%), and LiveCodeBench-V5 (91.6%) - highlighting holistic experience learning as a key step toward generalist agents capable of expert-level reasoning. Code and data are available at https://kagnlp.github.io/xolver.github.io/.
Abstract（参考訳）: 複雑な推論の顕著な進歩にもかかわらず、現在の大規模言語モデル(LLM)は、通常、独立した試みとして、経験的な知識を蓄積したり統合したりすることなく、独立して動作する。対照的に、Olympiadやプログラミングコンテストチームといった専門家の問題解決者は、コーチからのメンターシップの吸収、過去の問題からの直観の発達、ツールの使用法とライブラリ機能の知識の活用、ピアの専門知識と経験に基づく戦略の適応、トライアルとエラーによる推論の継続的な改善、競争中の他の関連する問題からの学習といった、豊富な経験のタペストリーを活用する。我々は,学習不要なマルチエージェント推論フレームワークであるXolverを紹介した。 Xolverは、外部および自己検索、ツールの使用、協調的相互作用、エージェント駆動評価、反復的改善など、さまざまなエクスペリエンスモダリティを統合している。関連する戦略やコードフラグメント、推論時に抽象的な推論パターンから学ぶことで、Xolverはスクラッチからソリューションを生成することを避けます。オープンウェイトモデルとプロプライエタリモデルの両方で構築されたXolverは、特別な推論エージェントを一貫して上回っている。軽量のバックボーン(例えばQWQ-32B)でも、Qwen3-235B、Gemini 2.5 Pro、o3、o4-mini-highといった先進モデルを上回っている。 o3-mini-highでは、GSM8K (98.1%)、AIME'24 (94.4%)、AIME'25 (93.7%)、Math-500 (99.8%)、LiveCodeBench-V5 (91.6%)の新たな最良の結果を達成する。コードとデータはhttps://kagnlp.github.io/xolver.github.io/で公開されている。

関連論文リスト

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [31.540626068273014]
我々はQwen2.5-72B-Instructに基づくエージェントを訓練し、実世界のソフトウェア工学の課題を解決する。提案手法は,SWE-bench Verifiedベンチマークにおけるエージェントの成功率を20%の微調整ベースラインから39%に向上させる。
論文参考訳（メタデータ） (2025-08-05T14:30:47Z)
SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam? [51.112225746095746]
本稿では,人間研究者をエミュレートするツール強化推論エージェントであるX-Masterを紹介する。 XマスターズはHumanity's Last Examに32.1%のスコアで最新記録を樹立した。
論文参考訳（メタデータ） (2025-07-07T17:50:52Z)
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges [10.088078143772563]
ヒューリスティックアルゴリズムは最適化(CO)問題を解く上で重要な役割を果たす。 HeurAgenixは、大規模言語モデル(LLM)を利用した2段階の超ヒューリスティックフレームワークである。
論文参考訳（メタデータ） (2025-06-18T07:20:01Z)
$C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.218102495632937]
エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文参考訳（メタデータ） (2025-05-24T15:25:44Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。 GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
MindForge: Empowering Embodied Agents with Theory of Mind for Lifelong Cultural Learning [3.187381965457262]
大型言語モデル(LLM)を駆使したエージェントは、Minecraftのような世界にオープンエンドの能力を持つことを約束する。本稿では,文化的生涯学習のための生成型フレームワークであるMindForgeを提案する。
論文参考訳（メタデータ） (2024-11-20T02:10:44Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文参考訳（メタデータ） (2023-08-20T03:03:34Z)
Learning from Multiple Independent Advisors in Multi-agent Reinforcement Learning [15.195932300563541]
本稿では,マルチエージェント強化学習において,複数の独立アドバイザから同時に学習することの課題について考察する。我々は、各州におけるアドバイザーを評価し、その後、アドバイザーを使用して行動選択をガイドすることで、アドバイザーの集合を組み込んだ原則付きアルゴリズムを提供する。
論文参考訳（メタデータ） (2023-01-26T15:00:23Z)
Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-01-05T10:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。