論文の概要: Wings: Learning Multimodal LLMs without Text-only Forgetting
- arxiv url: http://arxiv.org/abs/2406.03496v1
- Date: Wed, 5 Jun 2024 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.821481
- Title: Wings: Learning Multimodal LLMs without Text-only Forgetting
- Title(参考訳): Wings: テキストのみを必要とせずにマルチモーダル LLM を学習する
- Authors: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: Wingsは、テキストのみの対話とマルチモーダル理解の両方に優れる新しいMLLMである。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
- 参考スコア(独自算出の注目度): 63.56085426442873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs), initiated with a trained LLM, first align images with text and then fine-tune on multimodal mixed inputs. However, the MLLM catastrophically forgets the text-only instructions, which do not include images and can be addressed within the initial LLM. In this paper, we present Wings, a novel MLLM that excels in both text-only dialogues and multimodal comprehension. Analyzing MLLM attention in multimodal instructions reveals that text-only forgetting is related to the attention shifts from pre-image to post-image text. From that, we construct extra modules that act as the boosted learner to compensate for the attention shift. The complementary visual and textual learners, like "wings" on either side, are connected in parallel within each layer's attention block. Initially, image and text inputs are aligned with visual learners operating alongside the main attention, balancing focus on visual elements. Textual learners are later collaboratively integrated with attention-based routing to blend the outputs of the visual and textual learners. We design the Low-Rank Residual Attention (LoRRA) to guarantee high efficiency for learners. Our experimental results demonstrate that Wings outperforms equally-scaled MLLMs in both text-only and visual question-answering tasks. On a newly constructed Interleaved Image-Text (IIT) benchmark, Wings exhibits superior performance from text-only-rich to multimodal-rich question-answering tasks.
- Abstract(参考訳): MLLM(Multimodal large language model)は、訓練されたLLMで開始され、まず画像とテキストをアライメントし、次にマルチモーダルな混合入力で微調整する。
しかし、MLLMは文字のみの命令を破滅的に忘れてしまう。
本稿では,テキストのみの対話とマルチモーダル理解を両立させる新しいMLLMであるWingsを紹介する。
マルチモーダルインストラクションにおけるMLLMの注意分析は、テキストのみの忘れは、前画像から後画像テキストへの注意の変化と関連していることを示している。
そこから、注目のシフトを補うために、強化学習者として機能する余分なモジュールを構築します。
両サイドの"wings"のような補完的な視覚的およびテキスト的学習者は、各レイヤのアテンションブロック内で並列に接続される。
最初は、画像とテキストの入力は、視覚的要素に焦点を合わせながら、メインの注意と共に動作する視覚的学習者と一致している。
テキスト学習者は後に、視覚的およびテキスト学習者の出力をブレンドするために、注意に基づくルーティングと協調的に統合される。
学習者にとって高い効率を確保するために,ローランド残留注意(LoRRA)を設計する。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
新たに構築されたInterleaved Image-Text (IIT)ベンチマークでは、Wingsはテキストのみのリッチからマルチモーダルリッチな質問応答タスクまで、優れたパフォーマンスを示している。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。
このLVLMの不均衡は幻覚の原因となる可能性がある。
本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-31T17:46:57Z) - MATE: Meet At The Embedding -- Connecting Images with Long Texts [37.27283238166393]
Meet At The Embedding (MATE)は、大型言語モデル(LLM)とビジョン言語モデル(VLM)の機能を組み合わせた、新しいアプローチである。
我々は、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
画像と長いテキストを接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-26T14:10:00Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。