論文の概要: The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models
- arxiv url: http://arxiv.org/abs/2412.06646v3
- Date: Fri, 24 Oct 2025 16:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.779994
- Title: The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models
- Title(参考訳): ナローゲート: ネイティブマルチモーダルモデルにおける局所的な画像-テキスト通信
- Authors: Alessandro Serra, Francesco Ortu, Emanuele Panizon, Lucrezia Valeriani, Lorenzo Basile, Alessio Ansuini, Diego Doimo, Alberto Cazzaniga,
- Abstract要約: 視覚言語モデル(VLM)は、視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当て、画像理解タスクを処理する。
テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。
単一トークンを非難することは画像理解性能を著しく低下させるのに対し、ターゲットレベルの介入は画像意味論や下流テキストをきめ細かな制御で確実に操ることを示す。
- 参考スコア(独自算出の注目度): 44.299894732492696
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in multimodal training have significantly improved the integration of image understanding and generation within a unified model. This study investigates how vision-language models (VLMs) handle image-understanding tasks, focusing on how visual information is processed and transferred to the textual domain. We compare native multimodal VLMs, models trained from scratch on multimodal data to generate both text and images, and non-native multimodal VLMs, models adapted from pre-trained large language models or capable of generating only text, highlighting key differences in information flow. We find that in native multimodal VLMs, image and text embeddings are more separated within the residual stream. Moreover, VLMs differ in how visual information reaches text: non-native multimodal VLMs exhibit a distributed communication pattern, where information is exchanged through multiple image tokens, whereas models trained natively for joint image and text generation tend to rely on a single post-image token that acts as a narrow gate for visual information. We show that ablating this single token significantly deteriorates image-understanding performance, whereas targeted, token-level interventions reliably steer image semantics and downstream text with fine-grained control.
- Abstract(参考訳): マルチモーダルトレーニングの最近の進歩は、統一モデルにおける画像理解と生成の統合を著しく改善した。
本研究では,視覚情報がどのように処理され,テキスト領域に転送されるかに着目し,視覚言語モデル(VLM)が画像理解タスクをどのように扱うかを検討する。
テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。
ネイティブなマルチモーダルVLMでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。
VLMは、複数の画像トークンを介して情報を交換する分散通信パターンを示し、一方、共同画像やテキスト生成のためにネイティブに訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のポストイメージトークンに依存する傾向にある。
この単一トークンを非難することは、画像理解性能を著しく低下させる一方、ターゲットレベルの介入は、画像意味論や下流のテキストをきめ細かい制御で確実に操る。
関連論文リスト
- Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。