論文の概要: Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability
- arxiv url: http://arxiv.org/abs/2604.17217v1
- Date: Sun, 19 Apr 2026 02:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.397759
- Title: Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability
- Title(参考訳): 視覚言語モデルにおける横断的注意分析と最適化:視覚的信頼性に関する研究
- Authors: Lijie Zhou,
- Abstract要約: VLM(Vision-Language Models)は、強力なクロスモーダルなパフォーマンスを実現するが、近年の証拠は、視覚的証拠を過小評価しながら、テキスト記述に過度に頼っていることを示唆している。
意味的に矛盾するテキストと変化しない画像がペアリングされた場合の精度劣化(Drop)を測定することで、この相互依存を定量的に評価する逆評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) achieve strong cross-modal performance, yet recent evidence suggests they over-rely on textual descriptions while under-utilizing visual evidence -- a phenomenon termed ``text shortcut learning.'' We propose an adversarial evaluation framework that quantifies this cross-modal dependency by measuring accuracy degradation (Drop) when semantically conflicting text is paired with unchanged images. Four adversarial strategies -- shape\_swap, color\_swap, position\_swap, and random\_text -- are applied to a controlled geometric-shapes dataset ($n{=}1{,}000$). We compare three configurations: Baseline CLIP (ViT-B/32), LoRA fine-tuning, and LoRA Optimized (integrating Hard Negative Mining, Label Smoothing, layer-wise learning rates, Cosine Restarts, curriculum learning, and data augmentation). The optimized model reduces average Drop from 27.5\% to 9.8\% (64.4\% relative improvement, $p{<}0.001$) while maintaining 97\% normal accuracy. Attention visualization and embedding-space analysis confirm that the optimized model attends more to visual features and achieves tighter cross-modal alignment.
- Abstract(参考訳): VLM(Vision-Language Models)は、強力なクロスモーダルなパフォーマンスを実現するが、最近の証拠は、視覚的エビデンス("`text shortcut learning")と呼ばれる現象を過小評価しながら、テキスト記述に過度に頼っていることを示唆している。
意味的に矛盾するテキストと変化しない画像がペアリングされた場合の精度劣化(Drop)を測定することで、この相互依存を定量的に評価する逆評価フレームワークを提案する。
shape\_swap, color\_swap, position\_swap, random\_textの4つの逆戦略を、制御された幾何学的サッペスデータセット(n{=}1{,}000$)に適用する。
Baseline CLIP (ViT-B/32), LoRA fine-tuning, LoRA Optimized (Hard Negative Mining, Label Smoothing, Layer-wise Learning Rate, Cosine Restarts, カリキュラム学習, データ拡張) の3つの構成を比較した。
最適化されたモデルでは、平均ドロップを 27.5\% から 9.8\% (64.4\% の相対的な改善、$p{<}0.001$) に減らし、97\% の正規精度を維持する。
注意の可視化と埋め込み空間分析により、最適化されたモデルがより視覚的特徴に対応し、より厳密なクロスモーダルアライメントを実現することを確認した。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7188280334580195]
我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文 参考訳(メタデータ) (2025-09-20T23:23:04Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - ViLBias: Detecting and Reasoning about Bias in Multimodal Content [6.710013984078675]
ViLBiasは、マルチモーダルニュースにおけるバイアスの検出と推論のためのフレームワークである。
データセットは40,945のテキストペアで構成されている。
その結果,テキストによる画像の検出精度は3~5%向上した。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [39.37985751472905]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。