論文の概要: Phase Diagram of Vision Large Language Models Inference: A Perspective from Interaction across Image and Instruction
- arxiv url: http://arxiv.org/abs/2411.00646v1
- Date: Fri, 01 Nov 2024 15:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:13.394509
- Title: Phase Diagram of Vision Large Language Models Inference: A Perspective from Interaction across Image and Instruction
- Title(参考訳): 視覚大言語モデルの位相図:画像と命令間の相互作用の観点から
- Authors: Houjing Wei, Hakaze Cho, Yuting Shi, Naoya Inoue,
- Abstract要約: 本稿では,異なるモードのトークンの隠れ状態ベクトル間の文脈化を計測する。
我々の実験は、トランスフォーマーベースのLMの深さに対するビジョン大言語モデル(VLLM)の4相推論ダイナミクスを明らかにする。
- 参考スコア(独自算出の注目度): 2.767933212692046
- License:
- Abstract: Vision Large Language Models (VLLMs) usually take input as a concatenation of image token embeddings and text token embeddings and conduct causal modeling. However, their internal behaviors remain underexplored, raising the question of interaction among two types of tokens. To investigate such multimodal interaction during model inference, in this paper, we measure the contextualization among the hidden state vectors of tokens from different modalities. Our experiments uncover a four-phase inference dynamics of VLLMs against the depth of Transformer-based LMs, including (I) Alignment: In very early layers, contextualization emerges between modalities, suggesting a feature space alignment. (II) Intra-modal Encoding: In early layers, intra-modal contextualization is enhanced while inter-modal interaction is suppressed, suggesting a local encoding within modalities. (III) Inter-modal Encoding: In later layers, contextualization across modalities is enhanced, suggesting a deeper fusion across modalities. (IV) Output Preparation: In very late layers, contextualization is reduced globally, and hidden states are aligned towards the unembedding space.
- Abstract(参考訳): 視覚大言語モデル(VLLM)は通常、画像トークンの埋め込みとテキストトークンの埋め込みの結合として入力を受け取り、因果モデリングを行う。
しかし、それらの内部行動は未解明のままであり、2種類のトークン間の相互作用の問題が提起されている。
モデル推論におけるそのようなマルチモーダル相互作用を調べるため,本論文では,異なるモードのトークンの隠れ状態ベクトル間の文脈化を計測する。
実験により,VLLMの4相推論ダイナミクスがトランスフォーマーに基づくLMの深さに対して発見され,(I)アライメント: 非常に初期の層では,モーダル性の間にコンテキスト化が出現し,特徴空間のアライメントが示唆される。
(II)
モーダル内符号化:初期層では、モーダル間の相互作用が抑制され、モーダル内の局所的なエンコーディングが示唆される。
(III)
インターモーダルエンコーディング: 後続のレイヤでは、モダリティ間のコンテキスト化が強化され、モダリティ間のより深い融合が示唆される。
(4)
出力準備:非常に遅いレイヤでは、コンテキスト化はグローバルに減少し、隠れた状態は非埋め込み空間に向けて整列される。
関連論文リスト
- Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation [15.676384275867965]
セグメンテーションの参照は、自然言語表現に関連する対象オブジェクトをセグメンテーションすることを目的としている。
近年のモデルは、視覚エンコーダの中間段階における言語機能との早期融合に焦点を当てている。
本稿では,段階分割ビジョンと言語トランスフォーマーエンコーダを用いた新しいアーキテクチャであるクロスアウェアアーリーフュージョンを提案する。
論文 参考訳(メタデータ) (2024-08-14T13:17:41Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation [88.33780780220091]
CoDi-2は汎用的でインタラクティブなマルチモーダル言語モデル(MLLM)である
複雑なマルチモーダルなインターリーブ命令に従うことができ、ICL(In-context Learning)、理性、チャット、編集などを実行することができる。
論文 参考訳(メタデータ) (2023-11-30T18:21:25Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。