Fugu-MT 論文翻訳(概要): Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

論文の概要: Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning

arxiv url: http://arxiv.org/abs/2605.25437v1
Date: Mon, 25 May 2026 05:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.297896
Title: Does Seeing More Mean Knowing More? Mono-Anchored Advantage Normalization for Multi-Source Visual Reasoning
Title（参考訳）: より多くの意味がわかるか? マルチソースビジュアル推論のためのMono-Anchotedアドバンテージ正規化
Authors: Fanhu Zeng, Zhicong Luo, Zefan Wang, You Li, Chi Chen, Maosong Sun,
Abstract要約: 本稿では,視覚的モダリティを独立した情報ソースとしてモデル化する,単調なマルチソース推論フレームワークを提案する。本手法は,勾配推定におけるマルチソース統合による情報ゲインを効果的に定量化する。また、GRPOとDAPOは3.2%、パフォーマンスは4.9%向上した。
参考スコア（独自算出の注目度）: 36.976702924164584
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual reasoning through reinforcement learning with verifiable rewards (RLVR) has achieved remarkable progress. However, when dealing with multi-source inputs, existing approaches tend to treat them as a mere accumulation of information, lacking explicit mechanisms to distinguish whether integrating additional sources yields information gain or introduces interference. Therefore, they struggle to effectively model dynamic interaction when integrating multiple sources, particularly when they differ significantly in physical properties and semantics, e.g., infrared and depth, leading to inferior performance to mono-source reasoning when a certain source holds the dominant signal. To address this issue, we propose MARS, a novel mono-anchored multi-source reasoning framework that models each visual modality as an independent information source. Specifically, by treating mono-source rewards as dynamic anchors, our method explicitly incorporates the information gain introduced by multi-source fusion into advantage normalization and adaptively emphasizes mutual promotion between sources while suppressing potential noise or conflicts during RLVR. From theoretical analysis, our method effectively quantifies information gain introduced by multi-source integration in gradient estimation, enabling consistent modality regulation. Empirical results also show impressive 3.2% and 4.9% performance gains on GRPO and DAPO across diverse datasets, confirming effectiveness of our method.
Abstract（参考訳）: 検証可能な報酬(RLVR)を用いた強化学習による視覚的推論は目覚ましい進歩を遂げた。しかし、マルチソース入力を扱う場合、既存のアプローチは情報の単なる蓄積として扱う傾向があり、追加ソースを統合することで情報ゲインが得られ、干渉が発生するかどうかを識別する明確なメカニズムが欠如している。したがって、複数のソースを統合する際に動的相互作用を効果的にモデル化することは困難であり、特に物理特性や意味論、例えば赤外や深度が異なる場合には、特定のソースが支配的な信号を保持する場合、単ソース推論よりも性能が劣る。この問題に対処するため,MARSを提案する。MARSは,個々の視覚的モダリティを独立した情報ソースとしてモデル化する,単調なマルチソース推論フレームワークである。具体的には、モノソース報酬を動的アンカーとして扱うことにより、マルチソース融合による情報ゲインを有効活用し、RLVRにおける潜在的なノイズやコンフリクトを抑制しつつ、ソース間の相互促進を適応的に強調する。理論的解析から,勾配推定におけるマルチソース統合による情報ゲインを効果的に定量化し,一貫したモダリティ制御を実現する。実験の結果,GRPOとDAPOは多種多様なデータセットで3.2%,4.9%の性能向上を示し,本手法の有効性を確認した。

関連論文リスト

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations [4.67724003380452]
マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。基本的枠組みである textbfCOrAL を導入する。
論文参考訳（メタデータ） (2026-02-16T18:06:53Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process [8.207427766052044]
提案手法は,2つの数学的および2つの材料科学ケーススタディを用いて実証および解析を行った。シングルソースおよびソースを意識しない機械学習モデルと比較して、提案したマルチソースデータ融合フレームワークはスパースデータ問題に対してより良い予測を提供することができる。
論文参考訳（メタデータ） (2024-02-06T16:54:59Z)
Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。 DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文参考訳（メタデータ） (2023-11-23T15:47:33Z)
Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文参考訳（メタデータ） (2022-11-07T14:27:38Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。