論文の概要: Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning
- arxiv url: http://arxiv.org/abs/2412.03467v1
- Date: Wed, 04 Dec 2024 16:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:41.273397
- Title: Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning
- Title(参考訳): マルチモーダル・インストラクション・チューニング後の言語推論劣化の学習自由化
- Authors: Neale Ratzlaff, Man Luo, Xin Su, Vasudev Lal, Phillip Howard,
- Abstract要約: マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。
言語推論性能に対するマルチモーダル・インストラクション・チューニングの効果について検討する。
- 参考スコア(独自算出の注目度): 9.824152397546719
- License:
- Abstract: Multimodal models typically combine a powerful large language model (LLM) with a vision encoder and are then trained on multimodal data via instruction tuning. While this process adapts LLMs to multimodal settings, it remains unclear whether this adaptation compromises their original language reasoning capabilities. In this work, we explore the effects of multimodal instruction tuning on language reasoning performance. We focus on LLaVA, a leading multimodal framework that integrates LLMs such as Vicuna or Mistral with the CLIP vision encoder. We compare the performance of the original LLMs with their multimodal-adapted counterparts across eight language reasoning tasks. Our experiments yield several key insights. First, the impact of multimodal learning varies between Vicuna and Mistral: we observe a degradation in language reasoning for Mistral but improvements for Vicuna across most tasks. Second, while multimodal instruction learning consistently degrades performance on mathematical reasoning tasks (e.g., GSM8K), it enhances performance on commonsense reasoning tasks (e.g., CommonsenseQA). Finally, we demonstrate that a training-free model merging technique can effectively mitigate the language reasoning degradation observed in multimodal-adapted Mistral and even improve performance on visual tasks.
- Abstract(参考訳): マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。
このプロセスはLLMをマルチモーダルな設定に適合させるが、この適応が元の言語推論能力を損なうかどうかは不明だ。
本研究では,マルチモーダル・インストラクション・チューニングが言語推論性能に与える影響について検討する。
私たちは、VicunaやMistralのようなLLMをCLIPビジョンエンコーダと統合する主要なマルチモーダルフレームワークであるLLaVAにフォーカスしている。
元のLLMの性能と8つの言語推論タスクのマルチモーダル適応性能を比較した。
我々の実験はいくつかの重要な洞察をもたらす。
まず、マルチモーダル学習の影響は、Vicuna と Mistral の間で異なる: 私たちは、Mistral の言語推論の劣化を観察するが、ほとんどのタスクにおいて、Vicuna は改善する。
第二に、マルチモーダル命令学習は数学的推論タスク(例えば、GSM8K)の性能を一貫して低下させるが、コモンセンス推論タスク(例えば、CommonsenseQA)の性能を向上させる。
最後に,マルチモーダル適応ミストラルにおける言語推論の劣化を効果的に軽減し,視覚的タスクの性能を向上させる訓練自由モデルマージ手法を実証する。
関連論文リスト
- Improving Multimodal Large Language Models Using Continual Learning [16.28968930137886]
生成型大規模言語モデル(LLM)は、事前学習された視覚モデルを元のLLMに統合することにより、さらに拡張できる印象的な能力を示す。
本研究では,この問題をLLaVA MLLMを用いて検討し,統合を継続学習問題として扱う。
言語能力の損失を最小限に抑えながら視覚的理解を高める手法を,5つの連続学習手法を用いて検討した。
論文 参考訳(メタデータ) (2024-10-25T18:50:40Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。