論文の概要: CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2407.20454v1
- Date: Mon, 29 Jul 2024 23:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-31 18:38:42.407787
- Title: CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models
- Title(参考訳): CoMMIT:マルチモーダル大規模言語モデルのための協調型インストラクションチューニング
- Authors: Junda Wu, Xintong Li, Tong Yu, Yu Wang, Xiang Chen, Jiuxiang Gu, Lina Yao, Jingbo Shang, Julian McAuley,
- Abstract要約: 本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
- 参考スコア(独自算出の注目度): 68.64605538559312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning in multimodal large language models (MLLMs) aims to smoothly integrate a backbone LLM with a pre-trained feature encoder for downstream tasks. The major challenge is how to efficiently find the synergy through cooperative learning where LLMs adapt their reasoning abilities in downstream tasks while feature encoders adjust their encoding to provide more relevant modal information. In this paper, we analyze the MLLM instruction tuning from both theoretical and empirical perspectives, where we find unbalanced learning between the two components, i.e., the feature encoder and the LLM, can cause diminishing learning gradients that slow the model convergence and often lead to sub-optimal results due to insufficient learning. Inspired by our findings, we propose a measurement to quantitatively evaluate the learning balance, based on which we further design a dynamic learning scheduler that better coordinates the learning. In addition, we introduce an auxiliary loss regularization method to promote updating of the generation distribution of MLLMs considering the learning state of each model component, which potentially prevents each component from gradient diminishing and enables a more accurate estimation of the learning balance coefficient. We conduct experiments with multiple LLM backbones and feature encoders, where our techniques are model-agnostic and can be generically integrated with various MLLM backbones. Experiment results on multiple downstream tasks and modalities in vision and audio, demonstrate the proposed method's better efficiency and effectiveness in MLLM instruction tuning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における命令チューニングは、下流タスクのための事前訓練された機能エンコーダとバックボーンLLMを円滑に統合することを目的としている。
主な課題は、LLMが下流タスクの推論能力に適応し、機能エンコーダがより関連性の高いモーダル情報を提供するようにエンコーディングを調整する、協調学習を通じてシナジーを効率的に見つける方法である。
本稿では,MLLMの命令チューニングを理論的・経験的両面から解析し,特徴エンコーダとLLMという2つのコンポーネント間の不均衡学習が,モデルの収束を遅くする学習勾配の低下を招き,学習不足による準最適結果につながる可能性があることを示す。
そこで本研究では,学習バランスを定量的に評価する尺度を提案し,学習のコーディネートを改善する動的学習スケジューラをさらに設計する。
さらに、各モデルコンポーネントの学習状態を考慮したMLLMの生成分布の更新を促進する補助的損失正規化手法を導入し、各コンポーネントの勾配低下を防止し、学習バランス係数をより正確に推定できるようにする。
複数のLLMバックボーンと特徴エンコーダを用いて実験を行い、モデルに依存しず、様々なMLLMバックボーンと汎用的に統合することができる。
マルチダウンストリームタスクと視覚および音声のモーダル性に関する実験結果から,MLLM 命令チューニングにおける提案手法の有効性と有効性を示す。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching [16.725632407644884]
大規模言語モデルでは,より小さな言語モデルから学習する。
具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。
金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
論文 参考訳(メタデータ) (2025-07-08T02:54:15Z) - Enhancing Complex Instruction Following for Large Language Models with Mixture-of-Contexts Fine-tuning [13.56631686493347]
訓練後の大規模言語モデル(LLM)は、一貫して複雑な命令に従うのに苦労する可能性がある。
本稿では,逐次的に構造化された入力命令を,サブコンテキストを含む複数の並列命令に変換することを提案する。
MISOは、SFTの有効性を高めるために、全体的な命令出力アライメントと個々のサブコンテキストの影響を共同で検討する混合コンテキストパラダイムを導入している。
論文 参考訳(メタデータ) (2025-05-17T09:13:47Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - Efficient Dynamic Ensembling for Multiple LLM Experts [44.41847678666002]
異なるLLM専門家の強みに対するアンサンブル推論は、多様な入力に対して一貫した満足なパフォーマンスを達成するために重要である。
本研究では,動的入力を前提とした複数のLDMエキスパートの強みを統合するために,DERと呼ばれる効率的な動的アンサンブル推論パラダイムを提案する。
実験により,本手法では,最先端のベースラインに比べて計算資源が少なく,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-12-10T12:05:56Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning [35.446870721902904]
エージェントとしてデプロイされる大規模言語モデル(LLM)は、必要な手動のエンゲージメントを最小限に抑えながら、複数のステップでユーザ指定タスクを解決する。
コード合成の領域における実行フィードバックを活用するためのモデル学習のためのエンドツーエンド強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T23:25:17Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。
しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。
これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文 参考訳(メタデータ) (2024-06-16T11:56:50Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction [24.675876324457747]
Adapter、Prefix-tuning、LoRAのような既存のLPMを微調整する方法は、LSMの生来の能力を損なう可能性がある。
本稿では,LLaMA-Excitorを提案する。LLaMA-Excitorは軽量な手法で,LLMの潜在能力を刺激し,徐々に価値ある情報に注意を払って指示に従う。
LLaMA-Excitorは、重要な改善を達成しつつ基本的な機能を維持する唯一の方法である。
論文 参考訳(メタデータ) (2024-04-01T04:39:21Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。