Fugu-MT 論文翻訳(概要): Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

論文の概要: Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

arxiv url: http://arxiv.org/abs/2605.12517v1
Date: Fri, 03 Apr 2026 10:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.773234
Title: Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models
Title（参考訳）: 欠落したモダリティギャップのブリッジ:視覚言語モデルのテキスト限定校正の改善
Authors: Mingyeong Kim, Jungwon Choi, Chaeyun Jang, Juho Lee,
Abstract要約: 視覚言語モデル(VLM)はしばしばテキストのみの入力にデプロイされるが、画像で訓練されている。視覚的モダリティを除去すると精度が大きく低下し、誤校正が厳しくなり、テキストのみのプロンプトでは元の言語バックボーンのように動作しないことがわかった。我々は,テキスト入力から遅延埋め込みを予測し,ピクセルレベルの画像合成を行なわずに凍結したVLMバックボーンに供給する軽量なクロスアテンションモジュールであるLatent Imagination Module (LIM)を提案する。
参考スコア（独自算出の注目度）: 14.752088383510788
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) are often deployed on text-only inputs, although they are trained with images. We find that removing the vision modality causes large drops in accuracy and severe miscalibration, and the model does not behave like its original language backbone under text-only prompting. This failure is not explained only by missing semantic information. Even when text descriptions preserve key content, confidence becomes unreliable, while adding a visual signal through generated images partially restores accuracy and calibration. We propose the Latent Imagination Module (LIM), a lightweight cross-attention module that predicts imagined latent embeddings from textual input and feeds them into a frozen VLM backbone without pixel-level image synthesis. Across text-only benchmarks, unseen tasks, and missing-image scenarios, LIM improves accuracy and reduces calibration error. These results suggest that latent modality completion is a practical approach for reliable VLM inference under missing-modality.
Abstract（参考訳）: 視覚言語モデル(VLM)は、しばしばテキストのみの入力にデプロイされるが、画像で訓練されている。視覚的モダリティを除去すると精度が大きく低下し、誤校正が厳しくなり、テキストのみのプロンプトでは元の言語バックボーンのように動作しないことがわかった。この失敗は意味情報の欠如によってのみ説明されるわけではない。テキスト記述がキー内容を保存する場合でも、生成した画像を通して視覚信号を追加することで、精度と校正が部分的に回復する。我々は,テキスト入力から遅延埋め込みを予測し,ピクセルレベルの画像合成を行なわずに凍結したVLMバックボーンに供給する軽量なクロスアテンションモジュールであるLatent Imagination Module (LIM)を提案する。テキストのみのベンチマーク、見えないタスク、欠落したイメージシナリオなどを通じて、LIMは精度を改善し、キャリブレーションエラーを低減する。これらの結果から, 遅延モーダリティ完備化は, 欠落モーダリティの下での信頼性VLM推論の実践的アプローチであることが示唆された。

関連論文リスト

HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities [11.816108209604211]
Hard Negative Captions (HNC) は、IMMトレーニング用のホイル付きハードネガティブキャプションを含む自動生成データセットである。診断タスクにおけるミスマッチの検出や、ノイズの多い視覚的入力シナリオ下での堅牢な実行において、モデルのゼロショット能力を改善して、HNCでのトレーニングの有効性を示す。
論文参考訳（メタデータ） (2026-05-06T14:01:47Z)
Evaluating Remote Sensing Image Captions Beyond Metric Biases [20.77920438007019]
本稿では,レファレンスフリー評価指標ReconScoreを紹介する。我々はReconScoreを使ってキャプションの品質を評価し、生成したテキストからのみオリジナルのビジュアル要素を再構築する。 ReconScoreを自己補正機構として利用することにより、計算微調整のオーバーヘッドを伴わずにMLLM出力のセマンティック精度を反復的に改善する。
論文参考訳（メタデータ） (2026-04-22T12:28:04Z)
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs [23.958966900531692]
MLLM(Multimodal large language model)は、画像として表示されるテキストを処理できるが、同じコンテンツがテキストトークンとして提供される場合よりも処理が悪くなることが多い。我々は,この「モダリティギャップ」を7つのベンチマークを5つの入力モードで評価することにより,系統的に診断する。
論文参考訳（メタデータ） (2026-03-10T02:14:23Z)
PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。 PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文参考訳（メタデータ） (2025-10-21T20:30:20Z)
Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文参考訳（メタデータ） (2024-12-24T12:51:05Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文参考訳（メタデータ） (2023-12-15T19:16:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。