Fugu-MT 論文翻訳(概要): Improving Multimodal Large Language Models Using Continual Learning

論文の概要: Improving Multimodal Large Language Models Using Continual Learning

arxiv url: http://arxiv.org/abs/2410.19925v1
Date: Fri, 25 Oct 2024 18:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.684883
Title: Improving Multimodal Large Language Models Using Continual Learning
Title（参考訳）: 連続学習を用いたマルチモーダル大規模言語モデルの改良
Authors: Shikhar Srivastava, Md Yousuf Harun, Robik Shrestha, Christopher Kanan,
Abstract要約: 生成型大規模言語モデル(LLM)は、事前学習された視覚モデルを元のLLMに統合することにより、さらに拡張できる印象的な能力を示す。本研究では,この問題をLLaVA MLLMを用いて検討し,統合を継続学習問題として扱う。言語能力の損失を最小限に抑えながら視覚的理解を高める手法を,5つの連続学習手法を用いて検討した。
参考スコア（独自算出の注目度）: 16.28968930137886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative large language models (LLMs) exhibit impressive capabilities, which can be further augmented by integrating a pre-trained vision model into the original LLM to create a multimodal LLM (MLLM). However, this integration often significantly decreases performance on natural language understanding and generation tasks, compared to the original LLM. This study investigates this issue using the LLaVA MLLM, treating the integration as a continual learning problem. We evaluate five continual learning methods to mitigate forgetting and identify a technique that enhances visual understanding while minimizing linguistic performance loss. Our approach reduces linguistic performance degradation by up to 15\% over the LLaVA recipe, while maintaining high multimodal accuracy. We also demonstrate the robustness of our method through continual learning on a sequence of vision-language tasks, effectively preserving linguistic skills while acquiring new multimodal capabilities.
Abstract（参考訳）: ジェネレーティブ・大型言語モデル(LLM)は、事前学習されたビジョンモデルを元のLLMに統合し、マルチモーダルLLM(MLLM)を作成することで、さらに拡張できる印象的な能力を示す。しかし、この統合は、元のLLMと比較して、自然言語理解や生成タスクの性能を著しく低下させることが多い。本研究では,この問題をLLaVA MLLMを用いて検討し,統合を継続学習問題として扱う。言語能力の損失を最小限に抑えながら視覚的理解を高める手法を,5つの連続学習手法を用いて検討した。提案手法は,LLaVAレシピの精度を高く保ちながら,LLaVAレシピの言語性能を最大15倍に低下させる。また,視覚言語タスクの連続的な学習を通じて,新たなマルチモーダル能力を習得しながら,言語スキルを効果的に維持する手法の堅牢性を実証する。

関連論文リスト

Uncovering inequalities in new knowledge learning by large language models across different languages [66.687369838071]
低リソース言語は、4つの次元すべてで一貫して不利に直面していることを示す。我々は,LLMの新たな知識学習における言語的不平等の認識を高め,より包括的で公平な将来のLLMの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T03:41:47Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning [9.824152397546719]
マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。言語推論性能に対するマルチモーダル・インストラクション・チューニングの効果について検討する。
論文参考訳（メタデータ） (2024-12-04T16:56:20Z)
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。 MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文参考訳（メタデータ） (2024-11-13T09:37:24Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文参考訳（メタデータ） (2024-05-28T16:56:42Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-09-13T17:57:21Z)
Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。本稿では,LLMの多言語性能向上のための命令的課題に取り組む。ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-28T14:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。