論文の概要: Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12374v3
- Date: Wed, 20 May 2026 07:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.095127
- Title: Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
- Title(参考訳): GAPを満たす:マルチモーダル大言語モデルにおける視覚推論のためのグラニュラーアライメントパラダイム
- Authors: Yanting Miao, Yutao Sun, Dexin Wang, Mengyu Zhou, Pascal Poupart, Lei Lv, Qi Zhao, Li Wang, Hao Li, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 視覚的潜在推論により、マルチモーダルな大言語モデル(MLLM)は、中間的な視覚的エビデンスを連続トークンとして生成する。
視覚潜在モデルのためのtextbfGranular textbfAlignment textbfParadigm を提案する。
Qwen2.5-VL 7Bでは,教師付き変種のうち,最高の平均集合認識と推論性能が得られる。
- 参考スコア(独自算出の注目度): 35.34635490741956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual latent reasoning lets a multimodal large language model (MLLM) create intermediate visual evidence as continuous tokens, avoiding external tools or image generators. However, existing methods usually follow an output-as-input latent paradigm and yield unstable gains. We identify evidence for a feature-space mismatch that can contribute to this instability: dominant visual-latent models build on pre-norm MLLMs and reuse decoder hidden states as predicted latent inputs, even though these states occupy a substantially different norm regime from the input embeddings the model was trained to consume~\citep{xie2025mhc,li2026siamesenorm,team2026attention}. This mismatch can make direct latent feedback unreliable. Motivated by this diagnosis, we propose \textbf{GAP}, a \textbf{G}ranular \textbf{A}lignment \textbf{P}aradigm for visual latent modeling. GAP aligns visual latent reasoning at three levels: feature-level alignment maps decoder outputs into input-compatible visual latents through a lightweight PCA-aligned latent head; context-level alignment grounds latent targets with inspectable auxiliary visual supervision; and capacity-guided alignment assigns latent supervision selectively to examples where the base MLLM struggles. On Qwen2.5-VL 7B, the resulting model achieves the best mean aggregate perception and reasoning performance among our supervised variants. Inference-time intervention probing further suggests that generated latents provide task-relevant visual signal beyond merely adding token slots.
- Abstract(参考訳): 視覚的潜在推論により、マルチモーダルな大規模言語モデル(MLLM)は、外部ツールやイメージジェネレータを避けるために、連続トークンとして中間的な視覚的エビデンスを作成することができる。
しかしながら、既存のメソッドは通常、出力・アズ・インプットの潜在パラダイムに従い、不安定な利得をもたらす。
支配的な視覚遅延モデルは、プレノームMLLM上に構築され、予測された遅延入力としてデコーダの隠蔽状態を再利用するが、これらの状態は入力埋め込みとかなり異なる標準状態を占めており、モデルが消費するように訓練された~\citep{xie2025mhc,li2026siamesenorm,team2026attention} を消費する。
このミスマッチは、直接的な潜伏的なフィードバックを信頼できないものにします。
この診断に触発されて、視覚潜在モデリングのための \textbf{GAP}, a \textbf{G}ranular \textbf{A}lignment \textbf{P}aradigmを提案する。
特徴レベルアライメントマップ デコーダは、軽量PCAアライメントの潜時ヘッドを介して入力互換の視覚潜時への出力、コンテキストレベルアライメントは、検査可能な補助視覚監督を備えた潜時目標、キャパシティガイダンスアライメントは、基地MLLMが苦労する事例に選択的に潜時監視を割り当てる。
Qwen2.5-VL 7Bでは,教師付き変種のうち,最高の平均集合認識と推論性能が得られる。
さらに推論時間の介入は、生成された潜伏剤が単にトークンスロットを追加するだけでなく、タスク関連視覚信号を提供することを示唆している。
関連論文リスト
- Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning [65.15766304205657]
In-context Learning (ICL) は、大規模なモデルをいくつかの例を使ってタスクに適応させるが、視覚言語モデル(VLM)への拡張は脆弱である。
我々の分析によると、基本的な限界は帰納的ギャップにあり、モデルはしばしば欠陥のある推論から正しい答えを導き出す。
帰納的帰納的プロセスとしてマルチモーダル ICL を再構成する枠組みを導入する。
論文 参考訳(メタデータ) (2026-05-04T09:18:19Z) - Online Self-Calibration Against Hallucination in Vision-Language Models [23.13137973421435]
LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像にない視覚的詳細を含む記述を生成する。
textbfOnline textbfSelf-textbfCAlibtextbfRation (OSCAR) を提案する。
論文 参考訳(メタデータ) (2026-05-01T01:03:05Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Sparse Visual Thought Circuits in Vision-Language Models [2.5754366051855837]
我々はQwen3-VL-8Bにおける疎視的思考回路の局所化とテストを行う因果パイプラインを開発した。
この層でSAEを訓練し、明示的な規則でタスク選択集合を構築し、精度とドリフトを定量化しながら推論時間スケーリングとアブレーションを行う。
論文 参考訳(メタデータ) (2026-03-26T06:24:36Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。
SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。
オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文 参考訳(メタデータ) (2026-02-02T03:10:41Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。