論文の概要: SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
- arxiv url: http://arxiv.org/abs/2605.09266v1
- Date: Sun, 10 May 2026 02:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.150845
- Title: SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning
- Title(参考訳): SeePhys Pro:物理推論のためのマルチモーダルRLVRにおけるモダリティ伝達とブラインド訓練効果の診断
- Authors: Kun Xiang, Terry Jingchen Zhang, Zirong Liu, Bokai Zhou, Yueling Tang, Junjie Yu, Jiacong Lu, Shangrui Huang, Heng Li, Likui Zhang, Kunkun Liu, Changzheng Zhang, Yangle Fang, Boqiang Guo, Hui-Ling Zhen, Dandan Tu, Yinya Huang, Xiaodan Liang,
- Abstract要約: SeePhys Proは、重要な情報がテキストから画像へ徐々に転送されるときに、モデルが同じ推論能力を維持するかどうかを研究するベンチマークである。
評価の結果,情報量が言語からダイアグラムへと変化するにつれて,性能が平均的に低下し,視覚的変動グラウンドが最も重要なボトルネックとなることがわかった。
この効果を解析するために、テキスト削除、画像マスクレート、フォーマット飽和制御は、有効な視覚的証拠ではなく、残存するテキストと分布の手がかりから生じる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 37.01284827211354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SeePhys Pro, a fine-grained modality transfer benchmark that studies whether models preserve the same reasoning capability when critical information is progressively transferred from text to image. Unlike standard vision-essential benchmarks that evaluate a single input form, SeePhys Pro features four semantically aligned variants for each problem with progressively increasing visual elements. Our evaluation shows that current frontier models are far from representation-invariant reasoners: performance degrades on average as information moves from language to diagrams, with visual variable grounding as the most critical bottleneck. Motivated by this inference-time fragility, we further develop large training corpora for multimodal RLVR and use blind training as a diagnostic control, finding that RL with all training images masked can still improve performance on unmasked validation sets. To analyze this effect, text-deletion, image-mask-rate, and format-saturation controls suggest that such gains can arise from residual textual and distributional cues rather than valid visual evidence. Our results highlight the need to evaluate multimodal reasoning not only by final-answer accuracy, but also by robustness under modality transfer and by diagnostics that test whether improvements rely on task-critical visual evidence.
- Abstract(参考訳): 本稿では,重要情報がテキストから画像へ段階的に転送される場合に,モデルが同じ推論能力を保っているかどうかを検証した,詳細なモダリティ伝達ベンチマークであるSeeePhys Proを紹介する。
単一の入力形式を評価する標準的な視覚情報ベンチマークとは異なり、SeeePhys Proは、視覚要素が徐々に増加する各問題に対して、意味的に整合した4つの変種を特徴としている。
我々の評価では、現在のフロンティアモデルは表現不変な推論からかけ離れており、情報量が言語からダイアグラムへと変化するにつれて、パフォーマンスは平均的に低下し、視覚的変動グラウンドが最も重要なボトルネックとなっている。
本研究は, マルチモーダルRLVRのための大規模トレーニングコーパスを更に開発し, ブラインドトレーニングを診断制御として利用し, マスクしたトレーニングイメージを全て備えたRLが, 未修正の検証セットの性能を向上させることができることを確認した。
この効果を解析するために、テキスト削除、画像マスクレート、フォーマット飽和制御は、有効な視覚的証拠ではなく、残存するテキストと分布の手がかりから生じる可能性があることを示唆している。
本研究は, 最終回答精度だけでなく, モダリティ伝達下での堅牢性や, タスククリティカルな視覚的証拠に依存しているかどうかの診断によって, マルチモーダル推論を評価することの必要性を強調した。
関連論文リスト
- From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception [12.4823697158657]
MLLM(Multimodal Large Language Models)は、一般的な視覚的理解において印象的な能力を示す。
彼らはしばしば、小さな物体を識別したり、微妙な視覚的関係を識別する必要のある、きめ細かい知覚タスクに干渉する。
この制限は、ネットワーク伝搬中の支配的なテキストトークンによって、細粒度の細かい視覚信号が早期に抑制または希釈される現象である、視覚減衰に起因している。
既存の入力中心のソリューションは、情報損失の本質的なメカニズムを根本的に逆転させることができない。
本稿では,この課題に対処するための変動情報フロー(VIF)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T09:32:13Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Causal Tracing of Object Representations in Large Vision Language Models: Mechanistic Interpretability and Hallucination Mitigation [27.62798534410331]
本稿では,視覚的物体知覚に対する因果的影響を系統的に定量化する,細粒度クロスモーダル因果追跡(FCCT)フレームワークを提案する。
FCCTは、視覚およびテキストトークンの全範囲、MHSA(Multi-head Self-attention)、FFN(Feed-forward Network)、隠された状態を含む3つのコアモデルコンポーネントを詳細に分析する。
我々の分析は、中間層における最後のトークンのMHSAが、クロスモーダル情報を集約する上で重要な役割を担い、FFNは3段階の階層的な保存の進行を示すことを初めて示すものである。
論文 参考訳(メタデータ) (2025-11-08T08:37:26Z) - Robust Fairness Vision-Language Learning for Medical Image Analysis [11.848018894413556]
視覚言語モデルの堅牢性と公平性を保証するための枠組みを導入する。
このフレームワークは、故障した画像とテキストのペアを特定し調整することで、トレーニング時の損失関数を修正します。
株式規模のAUCを見てみると8.6%の改善が見込まれる。
論文 参考訳(メタデータ) (2025-05-06T03:59:25Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。