論文の概要: LoMo: Local Modality Substitution for Deeper Vision-Language Fusion
- arxiv url: http://arxiv.org/abs/2605.30265v1
- Date: Thu, 28 May 2026 17:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.585133
- Title: LoMo: Local Modality Substitution for Deeper Vision-Language Fusion
- Title(参考訳): LoMo: より深いビジョンランゲージ核融合のための局所的モダリティ置換
- Authors: Feng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang,
- Abstract要約: Local Modality Substitution (LoMo) は、意味論的に等価なテキストと画像キャリア間の相互表現不変性の監視を提供するために設計された、軽量でアーキテクチャに依存しないデータキュレーションパラダイムである。
特に、LLaVA-Vision-1.5-8Bでは標準SFTを2.67ポイント、Qwen3.5-9Bでは2.82ポイント改善した。
- 参考スコア(独自算出の注目度): 10.837487434757882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダル融合を目的とした大規模な画像テキストトレーニングによって、広範囲の理解と推論タスクにおいて大きな進歩を遂げた。
理想的には、テキストの質問をレンダリング画像の質問に置き換えるには、モデルのパフォーマンスは本質的に影響を受けない。
しかし、実際には、そのようなモダリティ置換は劇的なパフォーマンス劣化を引き起こす。
我々は、この「キャリア感度」問題は、現在のトレーニングコーパスに固有のバイアスであると考えている。
画像キャプション、VQA、OCR、ウェブソースのインターリーブドデータなどの一般的なデータセット全体において、テキストと画像は典型的に異なる非対称な役割に分類され、テキストは言語的なクエリとして、画像は視覚的参照として機能する。
このようなデータバイアスにより、VLMは異なるモダリティにわたる情報取得に対して、明確な好みを示すようになる。
その結果、VLMはテキストとビジュアルキャリア間で意味論的に等価なコンテンツの表現を調整することができず、モダリティの置換の下でモデル推論が脆弱になる。
そこで我々はLoMo(LoMo)を提案する。LoMo(LoMo)はアーキテクチャに依存しない軽量なデータキュレーションパラダイムで、意味論的に等価なテキストと画像キャリア間の相互表現不変性の監視を提供する。
LoMoは、単一モダリティプロンプトをシームレスにインターリーブされたマルチモーダルシーケンスに変換することでこれを達成している。
ターゲットのテキストスパンを動的に選択し、レンダリングされたイメージとして再キャストすることで、"テキスト、ビジュアル、テキスト"キャリア間で同じセマンティクスを保存する。
13の多様なマルチモーダルベンチマークに対する大規模な実験は、LoMoが全体的なマルチモーダル推論を著しく改善し、より深いクロスモーダル融合をもたらすことを示した。
具体的には、LLaVA-OneVision-1.5-8Bでは標準SFTよりも2.67ポイント、Qwen3.5-9Bでは2.82ポイント改善されている。
関連論文リスト
- MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval [23.52156477012636]
Composed Image Retrieval (CIR) は、参照画像と修正されたテキストに基づいてターゲット画像を取得することを目的としている。
CIRのためのMCoT-MVS(Multi-level Vision Selection)を提案する。
論文 参考訳(メタデータ) (2026-03-18T04:49:19Z) - Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models [44.299894732492696]
視覚言語モデル(VLM)は、視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当て、画像理解タスクを処理する。
テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。
単一トークンを非難することは画像理解性能を著しく低下させるのに対し、ターゲットレベルの介入は画像意味論や下流テキストをきめ細かな制御で確実に操ることを示す。
論文 参考訳(メタデータ) (2024-12-09T16:39:40Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。