Fugu-MT 論文翻訳(概要): Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models

論文の概要: Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2411.02564v1
Date: Mon, 04 Nov 2024 19:55:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.34746
Title: Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models
Title（参考訳）: 連続LLaVA:大規模視覚言語モデルにおける連続的指導チューニング
Authors: Meng Cao, Yuyang Liu, Yingfei Liu, Tiancai Wang, Jiahua Dong, Henghui Ding, Xiangyu Zhang, Ian Reid, Xiaodan Liang,
Abstract要約: 連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
参考スコア（独自算出の注目度）: 93.5327725085853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction tuning constitutes a prevalent technique for tailoring Large Vision Language Models (LVLMs) to meet individual task requirements. To date, most of the existing approaches are confined to single-task adaptation, whereas the requirements in real-world scenarios are inherently varied and continually evolving. Thus an ideal LVLM should sustain continual instruction tuning in the face of stream-task distributions (i.e., different domains, emerging capabilities, and new datasets) while minimizing the forgetting of previously acquired knowledge. To achieve this, we propose a new benchmark for COntinuAl inStruction Tuning on LVLMs (COAST), which encompasses the aforementioned domain-incremental, capability-incremental, and dataset-incremental configurations. In terms of methodology, we propose Continual LLaVA, a rehearsal-free method tailored for continual instruction tuning in LVLMs. To circumvent the additional overhead associated with experience replay, we freeze LVLMs and construct the dual increment embeddings for each input instruction to facilitate parameter-efficient tuning. Specifically, the increment embeddings can be decomposed into two principal components: 1) intrinsic increment embeddings to encode task-specific characteristics. To achieve this, we set up a low-rank pool containing candidate embeddings, from which we select the relevant ones based on their similarity with the user instructions; 2) contextual increment embeddings to investigate the inter-dependencies across tasks. In this regard, the low-rank embeddings chosen in the previous tasks are aggregated via learnable weighted sum to provide complementary hints. Extensive experiments indicate that the proposed Continual LLaVA outperforms previous methods by significantly reducing the forgetting during the continual instruction tuning process.
Abstract（参考訳）: インストラクションチューニングは、個別のタスク要求を満たすためにLVLM(Large Vision Language Models)を調整するための一般的なテクニックである。現在まで、既存のアプローチのほとんどはシングルタスク適応に限られているが、現実のシナリオにおける要件は本質的に変化しており、継続的に進化している。したがって、理想的なLVLMは、ストリームタスク分布(例えば、異なるドメイン、新しい能力、新しいデータセット)に直面しながら、以前取得した知識の忘れを最小化しながら、連続的な命令チューニングを継続する必要がある。これを実現するために,先述したドメイン増分,能力増分,データセット増分構成を含むCOAST(COntinuAl inStruction Tuning on LVLMs)の新しいベンチマークを提案する。方法論の観点からは,LVLMにおける連続的命令チューニングに適したリハーサルフリーな手法であるContinual LLaVAを提案する。経験再生に伴う追加オーバーヘッドを回避するため、LVLMを凍結し、各入力命令に2つのインクリメント埋め込みを構築し、パラメータ効率の調整を容易にする。具体的には、増分埋め込みを2つの主成分に分解することができる。 1)タスク固有の特徴を符号化するための内在的なインクリメント埋め込み。これを実現するために、候補埋め込みを含む低ランクプールを設置し、ユーザ命令と類似性に基づいて関連するプールを選択する。 2)タスク間の依存性を調査するためのコンテキストインクリメント埋め込み。この点において、前のタスクで選択された低ランクな埋め込みは、学習可能な重み付け和によって集約され、補完的なヒントを提供する。拡張実験により、提案した連続LLaVAは、連続的な命令チューニング過程における忘れを著しく減らし、従来の手法よりも優れていたことが示唆された。

関連論文リスト

LLaVA-c: Continual Improved Visual Instruction Tuning [41.83222301318741]
LLaVA-1.5のようなマルチモーダルモデルは、マルチタスクデータセットのビジュアルインストラクションチューニングを通じて最先端の視覚的理解を実現する。タスク・バイ・タスクの連続学習はマルチタスク・ジョイント・ラーニングと一致するか、あるいは超える結果が得られることを示す。
論文参考訳（メタデータ） (2025-06-10T10:27:52Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。 CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文参考訳（メタデータ） (2024-11-21T09:00:15Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
LW2G: Learning Whether to Grow for Prompt-based Continual Learning [15.766350352592331]
最近のPrompt-based Continual Learning (PCL) は、事前学習モデル(PTM)による顕著なパフォーマンスを実現している。我々は,タスク間の相違に基づいて,成長するかどうか (LW2G) をtextbfLearn Wearn に送信するプラグインモジュールを提案する。グラディエント・プロジェクションの継続学習にインスパイアされたLW2Gは、Hinder Forward Capability(HFC)と呼ばれるメトリクスを開発し、新しいタスクの学習に課される障害を測定する。
論文参考訳（メタデータ） (2024-09-27T15:55:13Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。 3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文参考訳（メタデータ） (2022-12-08T21:44:18Z)
Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。 TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文参考訳（メタデータ） (2022-11-18T15:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。