論文の概要: WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.04634v1
- Date: Wed, 04 Feb 2026 15:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.582308
- Title: WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
- Title(参考訳): WideSeek-R1:マルチエージェント強化学習による広帯域情報探索のための幅スケーリングの探索
- Authors: Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang,
- Abstract要約: 既存のマルチエージェントシステムは、作業の並列化に失敗した手作りとターンテイクのインタラクションに依存していることが多い。
拡張性のあるオーケストレーションと並列実行を相乗化するために,マルチエージェント強化学習(MARL)を用いてトレーニングされたリードエージェントサブエージェントフレームワークであるWideSeek-R1を提案する。
WideSeek-R1-4Bは、シングルエージェントのDeepSeek-R1-671Bのパフォーマンスに匹敵する、WideSearchベンチマークで40.0%のアイテムF1スコアを達成している。
- 参考スコア(独自算出の注目度): 15.087327596252932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は,マルチターン推論とツール利用によって1つのエージェントが長い水平問題の解決を行うディープスケーリングに大きく焦点を合わせている。
しかしながら、タスクが拡大するにつれて、主要なボトルネックは、個々の能力から組織能力へとシフトします。
本研究では,多エージェントシステムによる幅スケーリングの相補的な次元を探索し,幅広い情報検索に対処する。
既存のマルチエージェントシステムは、業務を効果的に並列化できない手作りのワークフローやターンテイクインタラクションに依存していることが多い。
このギャップを埋めるために、スケーラブルなオーケストレーションと並列実行を相乗化するために、マルチエージェント強化学習(MARL)を用いてトレーニングされたリードエージェントサブエージェントフレームワークであるWideSeek-R1を提案する。
分離されたコンテキストと特殊なツールを備えた共有LLMを利用することで、WideSeek-R1は20万の幅広い情報検索タスクのキュレートされたデータセット上で、リードエージェントと並列サブエージェントを共同で最適化する。
WideSeek-R1-4Bは、シングルエージェントのDeepSeek-R1-671Bのパフォーマンスに匹敵する、WideSearchベンチマークで40.0%のアイテムF1スコアを達成している。
さらに、WideSeek-R1-4Bは並列サブエージェントの数が増えるにつれて一貫した性能向上を示し、幅スケーリングの有効性を強調している。
関連論文リスト
- WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。
データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。
まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。
第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文 参考訳(メタデータ) (2026-02-02T18:32:48Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling [48.18456242206804]
本稿では、生涯モデリングフレームワークの両段階にわたるマルチモーダル信号の活用方法の体系的分析について述べる。
単純なマルチモーダル検索ベースのフレームワークであるMUSEを提案する。
MUSE は Taobao ディスプレイ広告システムに実装されており,100K 長のユーザ行動シーケンスをモデル化することができる。
論文 参考訳(メタデータ) (2025-12-08T06:55:13Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.52017994491893]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (2025-03-18T06:57:21Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。