論文の概要: DR-MMSearchAgent: Deepening Reasoning in Multimodal Search Agents
- arxiv url: http://arxiv.org/abs/2604.19264v1
- Date: Tue, 21 Apr 2026 09:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.702668
- Title: DR-MMSearchAgent: Deepening Reasoning in Multimodal Search Agents
- Title(参考訳): DR-MMSearchAgent:マルチモーダル検索エージェントの深い推論
- Authors: Shengqin Wang, Wentao Yan, Huichi Zhou, Yihang Chen, Kun Shao, Zhizhong Zhang, Yuan Xie,
- Abstract要約: Deepening Reasoning MMSearchAgentは、バッチ全体におけるロールアウトトラジェクトリ全体のメリット信号を導出する。
ガウスの区別された報酬は 動的に 相互作用耐性を校正するために使われる
FVQAテストでMMSearch-R1を8.4$%上回り、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 24.61813749877376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic multimodal models have garnered significant attention for their ability to leverage external tools to tackle complex tasks. However, it is observed that such agents often meet premature interaction collapse, caused by two primary reasons: 1) the terminal reward often appending on the last token prevents the advantage from distinguishing trajectories with exploratory behavior; 2) excessively redundant context hinders the agent from absorbing useful feedback. To address these issues, we propose the Deepening Reasoning MMSearchAgent, the framework leverages the structural proximity to derive advantage signals from the whole rollout trajectories in an entire batch, such that trajectories of different lengths are further encouraged to be generated, even when containing the same correct answer. Additionally, differentiated gaussian rewards are employed to dynamically calibrate interaction tolerance, thereby ensuring information reliability and reduce redundancy. To support multi-turn interaction training, we have constructed a multi-step deep-reasoning dataset including 3602 high-quality QA pair with at least 3 reasonning steps. Extensive experiments demonstrate that our method achieves state-of-the-art performance, outperforming the MMSearch-R1 by 8.4$\%$ on FVQA-test.
- Abstract(参考訳): エージェントマルチモーダルモデルは、複雑なタスクに対処するための外部ツールを活用する能力に対して、大きな注目を集めている。
しかし、これらの薬剤は2つの主な理由から、しばしば早期の相互作用崩壊に遭遇することが観察された。
1) 最後のトークンにしばしば付加される終端報酬は,探索行動を伴う軌跡の識別の利点を阻害する。
2)過度に冗長な文脈は、エージェントが有用なフィードバックを吸収するのを妨げます。
これらの問題に対処するため,本フレームワークでは,同一の正解を含む場合でも,異なる長さのトラジェクトリがさらに生成されるように,バッチ全体のロールアウトトラジェクトリ全体から有利な信号を導出するために,構造的近接を利用したディープニング推論MMSearchAgentを提案する。
さらに、異なるガウス報酬を用いて動的に相互作用耐性を校正し、情報信頼性を確保し、冗長性を低減させる。
マルチターンインタラクショントレーニングを支援するために,少なくとも3つの推論ステップを備えた3602高品質QAペアを含む多段階深層推論データセットを構築した。
FVQA-testではMMSearch-R1を8.4$\%で上回り,最先端の性能を実証した。
関連論文リスト
- AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - Heterogeneous Consensus-Progressive Reasoning for Efficient Multi-Agent Debate [58.675713546748305]
マルチエージェント・ディベート(英: Multi-Agent Debate、MAD)は、複数のエージェントが推論および反復的批判サイクルの生成を通じて、反復的にソリューションを洗練する協調的なフレームワークである。
本研究は,HCP-MADのための不均一なコンセンサス・プログレッシブ推論を導入する。
HCP-MADは3段階のプログレッシブ推論機構を用いて、様々なタスク複雑度にまたがる適応的なソリューションを開発する。
論文 参考訳(メタデータ) (2026-04-03T06:58:59Z) - Adaptive Robust Estimator for Multi-Agent Reinforcement Learning [27.595086716369483]
協調推論のための頑健な多エージェント強化学習フレームワークを提案する。
Dual-Agent Answer-Critique-Rewrite (DACR)とAdaptive Robust Estimator (ARE)の2つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-03-23T04:51:15Z) - Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective [15.313681588364242]
我々は,Mambaデコーダと情報ボトルネック融合モジュールの相補的利点を利用する,IB-iumADと呼ばれる新しいデノナイズフレームワークを導入する。
MVTec 3D-ADとEyecandiesのデータセットに関する一連の理論的分析と実験は、IB-iumADの有効性と競争性能を示している。
論文 参考訳(メタデータ) (2026-03-03T05:58:35Z) - Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty [15.933557806106071]
不確実性下でのアクティブ非対称マルチエージェントマルチモーダル学習(A2MAML)を提案する。
A2MAMLは、不確実性を認識し、モダリティレベルのコラボレーションのための原則化されたアプローチである。
共同事故検出のための接続された自律走行シナリオの実験は、A2MAMLがシングルエージェントとコラボレーティブベースラインの両方を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:01:31Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。