論文の概要: Enhancing Multimodal Large Language Models Complex Reason via Similarity Computation
- arxiv url: http://arxiv.org/abs/2412.09817v1
- Date: Fri, 13 Dec 2024 03:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:08.727108
- Title: Enhancing Multimodal Large Language Models Complex Reason via Similarity Computation
- Title(参考訳): 類似性計算による多モーダル大言語モデルの複雑推論
- Authors: Xiaofeng Zhang, Fanshuo Zeng, Yihao Quan, Zheng Hui, Jiawei Yao,
- Abstract要約: LVLMの解釈可能性はまだ未調査領域である。
LLaVA1.5のようなモデルでは、テキストと意味的に関連付けられた画像トークンは、情報フローの収束度が高い。
本稿では,LVLMの複雑な推論能力の向上を目的とした画像トークン削減手法であるSimignoreを提案する。
- 参考スコア(独自算出の注目度): 7.742746565876165
- License:
- Abstract: Multimodal large language models have experienced rapid growth, and numerous different models have emerged. The interpretability of LVLMs remains an under-explored area. Especially when faced with more complex tasks such as chain-of-thought reasoning, its internal mechanisms still resemble a black box that is difficult to decipher. By studying the interaction and information flow between images and text, we noticed that in models such as LLaVA1.5, image tokens that are semantically related to text are more likely to have information flow convergence in the LLM decoding layer, and these image tokens receive higher attention scores. However, those image tokens that are less relevant to the text do not have information flow convergence, and they only get very small attention scores. To efficiently utilize the image information, we propose a new image token reduction method, Simignore, which aims to improve the complex reasoning ability of LVLMs by computing the similarity between image and text embeddings and ignoring image tokens that are irrelevant and unimportant to the text. Through extensive experiments, we demonstrate the effectiveness of our method for complex reasoning tasks. The paper's source code can be accessed from \url{https://github.com/FanshuoZeng/Simignore}.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは急速に成長し、多くの異なるモデルが出現している。
LVLMの解釈可能性はまだ未調査領域である。
特に連鎖推論のようなより複雑なタスクに直面した場合、その内部メカニズムは依然として解読が難しいブラックボックスに似ている。
画像とテキスト間の相互作用と情報フローを研究することで,LLaVA1.5のようなモデルでは,テキストと意味論的に関連付けられた画像トークンがLLM復号層に情報フロー収束する傾向があり,これらの画像トークンに高い注意点が与えられることがわかった。
しかし、テキストにあまり関係のない画像トークンは、情報フローの収束を持たず、非常に小さな注意点しか得られない。
画像情報を効率的に活用するために,画像とテキストの埋め込みの類似性を計算し,テキストに無関係で重要でない画像トークンを無視することにより,LVLMの複雑な推論能力を向上することを目的とした画像トークン削減手法であるSimignoreを提案する。
より広範な実験を通して,複雑な推論タスクに対する手法の有効性を実証する。
論文のソースコードは \url{https://github.com/FanshuoZeng/Simignore} からアクセスすることができる。
関連論文リスト
- LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文 参考訳(メタデータ) (2023-11-09T11:14:51Z) - PuMer: Pruning and Merging Tokens for Efficient Vision Language Models [41.81484883647005]
PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
論文 参考訳(メタデータ) (2023-05-27T17:16:27Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。