論文の概要: HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents
- arxiv url: http://arxiv.org/abs/2605.07177v1
- Date: Fri, 08 May 2026 03:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.76973
- Title: HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents
- Title(参考訳): HyperEyes: 並列マルチモーダル検索エージェントのための2段階の効率性を考慮した強化学習
- Authors: Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu,
- Abstract要約: 視覚的接地と検索を1つのアトミックアクションに融合させる並列マルチモーダル検索エージェントHyperEyesを提案する。
6つのベンチマークで、HyperEyes-30Bは最上位のオープンソースエージェントを9.9%上回り、平均5.3倍のツールコールラウンドを減らした。
- 参考スコア(独自算出の注目度): 6.536862833942476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal search agents process target entities sequentially, issuing one tool call per entity and accumulating redundant interaction rounds whenever a query decomposes into independent sub-retrievals. We argue that effective multimodal agents should search wider rather than longer: dispatching multiple grounded queries concurrently within a round. To this end, we present HyperEyes, a parallel multimodal search agent that fuses visual grounding and retrieval into a single atomic action, enabling concurrent search across multiple entities while treating inference efficiency as a first-class training objective. HyperEyes is trained in two stages. For cold-start supervision, we develop a Parallel-Amenable Data Synthesis Pipeline covering visual multi-entity and textual multi-constraint queries, curating efficiency-oriented trajectories via Progressive Rejection Sampling. Building on this, our central contribution, a Dual-Grained Efficiency-Aware Reinforcement Learning framework, operates at two levels. At the macro level, we propose TRACE (Tool-use Reference-Adaptive Cost Efficiency), a trajectory-level reward whose reference is monotonically tightened during training to suppress superfluous tool calls without restricting genuine multi-hop search. At the micro level, we adapt On-Policy Distillation to inject dense token-level corrective signals from an external teacher on failed rollouts, mitigating the credit-assignment deficiency of sparse outcome rewards. Since existing benchmarks evaluate accuracy as the sole metric, omitting inference cost, we introduce IMEB, a human-curated benchmark of 300 instances that jointly evaluates search capability and efficiency. Across six benchmarks, HyperEyes-30B surpasses the strongest comparable open-source agent by 9.9% in accuracy with 5.3x fewer tool-call rounds on average.
- Abstract(参考訳): 既存のマルチモーダル検索エージェントは、ターゲットエンティティを逐次処理し、エンティティごとに1つのツールコールを発行し、クエリが独立したサブドメインに分解されるたびに冗長なインタラクションラウンドを蓄積する。
有効なマルチモーダルエージェントは、より長い時間ではなく、より広い範囲で検索すべきである、と我々は主張する。
この目的のために、並列マルチモーダル検索エージェントであるHyperEyesを提案する。これは、視覚的接地と検索を単一のアトミックアクションに融合させ、推論効率を第一級学習目標として扱いながら、複数のエンティティをまたいだ同時探索を可能にする。
HyperEyesは2つの段階で訓練されている。
コールドスタートの監視のために,視覚的マルチエンタリティとテキストによるマルチ制約クエリを対象とし,プログレッシブ・リジェクション・サンプリングによる効率指向トラジェクトリの算出を行うパラレル・アメニブルデータ合成パイプラインを開発した。
これに基づいて、我々の中心的な貢献であるDual-Grained Efficiency-Aware Reinforcement Learningフレームワークは、2つのレベルで動作します。
マクロレベルでは,真のマルチホップ検索を制限せずに過剰なツールコールを抑えるため,トレーニング中に基準を単調に締め付けるトラジェクトリレベルの報酬であるTRACE(Tool-use Reference-Adaptive Cost efficiency)を提案する。
マイクロレベルでは,高密度トークンレベルの補正信号を外部教師に注入するために,オンポリシィ蒸留を適用してロールアウトの失敗を軽減し,スパース結果報酬のクレジット割り当て不足を緩和する。
既存のベンチマークでは、推測コストを省略する唯一の指標として精度を評価するため、検索能力と効率を共同で評価する300インスタンスの人為的なベンチマークであるIMEBを導入する。
6つのベンチマークで、HyperEyes-30Bは最上位のオープンソースエージェントを9.9%上回り、平均5.3倍のツールコールラウンドを減らした。
関連論文リスト
- InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search [38.39587091230621]
既存のベンチマークでは、マルチモーダル検索とビジュアルブラウジングが評価されているが、視覚的証拠は入力に限られるか、応答エンドポイントとして扱われる。
我々はInterleaved Language-Vision Agentic SearchのベンチマークであるtextbfInterLV-Searchを紹介する。
アクティブ・ビジュアル・エビデンス・サーチ、オフライン・インターリーブド・サーチ、オープン・ウェブ・インターリーブド・サーチの3段階にわたる2,061件のサンプルが含まれている。
論文 参考訳(メタデータ) (2026-05-08T09:41:07Z) - OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents [50.79529228477821]
エージェント強化学習を用いたフロンティアマルチモーダルディープサーチエージェントの完全オープンソースレシピであるOpenSearch-VLを紹介した。
まず、ウィキペディアパスのサンプリング、ファジィエンティティの書き換え、ソース・アンカーの視覚的グラウンドリングを通じて、高品質なトレーニングデータを構築するための専用パイプラインをキュレートした。
さらに,テキスト検索,画像検索,OCR,収穫,研削,超解像,視点補正を統一する多様なツール環境を設計する。
論文 参考訳(メタデータ) (2026-05-06T17:50:38Z) - DR-MMSearchAgent: Deepening Reasoning in Multimodal Search Agents [24.61813749877376]
Deepening Reasoning MMSearchAgentは、バッチ全体におけるロールアウトトラジェクトリ全体のメリット信号を導出する。
ガウスの区別された報酬は 動的に 相互作用耐性を校正するために使われる
FVQAテストでMMSearch-R1を8.4$%上回り、最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-04-21T09:28:34Z) - MTA-Agent: An Open Recipe for Multimodal Deep Search Agents [51.180338423927985]
MLLM(Multi-hop large language model)は、視覚的理解において強力な能力を示しているが、複雑な多段階推論において制限されている。
証拠ベースQA合成のためのマルチホップツール拡張エージェント(MTA-Agent)を提案する。
MTA-Agentは、視覚的およびテキストソースから証拠を検索し、検証するためのツールとそのパラメータを自動的に選択する。
論文 参考訳(メタデータ) (2026-04-07T19:01:45Z) - PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training [28.912613644535668]
本稿では,エージェント検索訓練におけるデータ効率向上のためのフレームワークPRAISEを提案する。
本手法は,検索ポリシー学習とプレフィックス応答評価の両方に,単一の共有モデルを用いる。
マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2026-04-04T10:23:46Z) - KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。