論文の概要: Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs
- arxiv url: http://arxiv.org/abs/2405.16700v1
- Date: Sun, 26 May 2024 21:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:48:31.474813
- Title: Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs
- Title(参考訳): 暗黙的マルチモーダルアライメント:凍結LDMのマルチモーダル入力への一般化について
- Authors: Mustafa Shukor, Matthieu Cord,
- Abstract要約: 大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
- 参考スコア(独自算出の注目度): 63.29737699997859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance on multimodal tasks, without any multimodal finetuning. They are the building block for Large Multimodal Models, yet, we still lack a proper understanding of their success. In this work, we expose frozen LLMs to image, video, audio and text inputs and analyse their internal representation aiming to understand their generalization beyond textual inputs. Findings. Perceptual tokens (1) are easily distinguishable from textual ones inside LLMs, with significantly different representations, and complete translation to textual tokens does not exist. Yet, (2) both perceptual and textual tokens activate similar LLM weights. Despite being different, (3) perceptual and textual tokens are implicitly aligned inside LLMs, we call this the implicit multimodal alignment (IMA), and argue that this is linked to architectural design, helping LLMs to generalize. This provide more evidence to believe that the generalization of LLMs to multimodal inputs is mainly due to their architecture. Implications. (1) We find a positive correlation between the implicit alignment score and the task performance, suggesting that this could act as a proxy metric for model evaluation and selection. (2) A negative correlation exists regarding hallucinations, revealing that this problem is mainly due to misalignment between the internal perceptual and textual representations. (3) Perceptual tokens change slightly throughout the model, thus, we propose different approaches to skip computations (e.g. in FFN layers), and significantly reduce the inference cost. (4) Due to the slowly changing embeddings across layers, and the high overlap between textual and multimodal activated weights, we compress LLMs by keeping only 1 subnetwork that works well across a wide range of multimodal tasks. Paper code: https://github.com/mshukor/ima-lmms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
大規模なマルチモーダルモデルのためのビルディングブロックですが、その成功に対する適切な理解はいまだにありません。
本研究では, 画像, ビデオ, 音声, テキスト入力に対して凍結LDMを公開し, 内部表現を解析し, その一般化をテキスト入力を超えて理解することを目的とした。
発見。
知覚トークン(1)は、LLM内のテキストトークンと容易に区別でき、表現が著しく異なり、テキストトークンへの完全翻訳は存在しない。
しかし、(2)知覚トークンとテキストトークンの両方が同様のLCM重みを活性化する。
異なるにもかかわらず、(3)知覚トークンとテキストトークンはLLM内で暗黙的にアライメントされているが、我々はこれを暗黙のマルチモーダルアライメント(IMA)と呼ぶ。
このことは、LLMのマルチモーダル入力への一般化は、主にアーキテクチャによるものであると信じている多くの証拠を提供する。
意味。
1)暗黙のアライメントスコアとタスクパフォーマンスとの間には正の相関関係がみられ,モデル評価と選択のためのプロキシ指標として機能する可能性が示唆された。
2)幻覚には負の相関がみられ,内的知覚とテキスト表現の相違が主な原因であることが判明した。
3) 知覚トークンはモデル全体を通してわずかに変化するため,計算をスキップするための異なるアプローチ(例えばFFN層)を提案し,推論コストを大幅に削減する。
(4) 層間埋め込みが徐々に変化し, テキストとマルチモーダルの重みが重なり合うため, 幅広いマルチモーダルタスクでうまく動作するサブネットワークを1つだけ保持することでLCMを圧縮する。
Paper code: https://github.com/mshukor/ima-lmms.com
関連論文リスト
- Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting [11.926100290196828]
本稿では,受動的フィールド認識重み付けによる大規模言語モデルの実現により,あるバニラモデルの性能を向上させるフレームワークであるLanternを提案する。
実験では、バニラモデルCORECTとSDTがGPT-4またはLlama-3.1-405Bでランタンに配備された。
論文 参考訳(メタデータ) (2024-11-26T18:35:24Z) - Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。