論文の概要: Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.01831v2
- Date: Tue, 04 Nov 2025 03:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.372627
- Title: Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models
- Title(参考訳): 専門家間の動的ルーティング:ビジョンランゲージモデルにおける連続学習のためのデータ効率の良いアプローチ
- Authors: Jay Mohta, Kenan Emir Ak, Dimitrios Dimitriadis, Yan Xu, Mingwei Shen,
- Abstract要約: VLM(Vision-Language Models)は、新しいタスクを逐次微調整する場合、破滅的な忘れ込みに悩まされる。
本稿では,事前学習時に得られる基礎知識を維持しつつ,新たなタスクの統合を可能にするルーティングベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.431923437214719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) suffer from catastrophic forgetting when sequentially fine-tuned on new tasks, degrading performance on previously learned foundational and task-specific capabilities. While multi-task learning can mitigate forgetting, it requires simultaneous access to all datasets and imposes computational overhead that scales linearly with the number of tasks. In this work, we introduce a routing-based approach that enables the integration of new tasks while preserving the foundational knowledge acquired during pretraining. We evaluate our method using InternVL-2 models (2B and 8B parameters) and demonstrate that routing preserves the model's foundational capabilities by maintaining performance on general-purpose benchmarks such as ChartQA, MMBench, and DocVQA, while simultaneously improving accuracy on specialized tasks. Importantly, our approach achieves this without requiring concurrent access to data from all tasks, avoiding the significant computational and data overhead associated with traditional multi-task learning. We further conduct extensive ablation studies to evaluate the scalability and robustness of routing-based learning, showing that the approach is resilient to a growing number of tasks and performs particularly well when new tasks are semantically related. Finally, we show that the routing mechanism enables superior cross-modal transfer between language and vision capabilities, allowing knowledge learned in one modality to enhance performance in another capability not achieved by existing continual learning methods.
- Abstract(参考訳): VLM(Vision-Language Models)は、新しいタスクを逐次微調整し、以前に学習された基礎とタスク固有の能力の性能を劣化させるときに、破滅的な忘れに苦しむ。
マルチタスク学習は忘れを軽減できるが、すべてのデータセットへの同時アクセスを必要とし、タスク数に応じて線形にスケールする計算オーバーヘッドを課す。
本研究では,事前学習時に得られる基礎知識を維持しつつ,新たなタスクの統合を可能にするルーティングベースのアプローチを提案する。
InternVL-2モデル(2Bおよび8Bパラメータ)を用いて本手法の評価を行い,ChartQA,MMBench,DocVQAなどの汎用ベンチマークの性能を維持しながら,特定タスクの精度を同時に向上させることにより,ルーティングがモデルの基礎的能力を維持することを示す。
重要なことは、従来のマルチタスク学習に付随する計算やデータのオーバーヘッドを回避し、全てのタスクからデータへの同時アクセスを必要とせず、これを実現することである。
さらに、ルーティングベースの学習のスケーラビリティと堅牢性を評価するために、広範囲にわたるアブレーション研究を行い、新しいタスクが意味論的に関連付けられている場合に、アプローチが多くのタスクに対して弾力性があることを示します。
最後に、このルーティング機構により、言語と視覚能力の相互伝達に優れ、学習した知識を1つのモーダルで学習することで、既存の連続学習手法では達成されていない他の能力の性能を向上させることができることを示す。
関連論文リスト
- LLaVA-c: Continual Improved Visual Instruction Tuning [41.83222301318741]
LLaVA-1.5のようなマルチモーダルモデルは、マルチタスクデータセットのビジュアルインストラクションチューニングを通じて最先端の視覚的理解を実現する。
タスク・バイ・タスクの連続学習はマルチタスク・ジョイント・ラーニングと一致するか、あるいは超える結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T10:27:52Z) - Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.814732457885022]
連続学習(CL)は、現代のディープニューラルネットワークアプリケーションにおいて重要なトピックである。
本稿では、H埋め込みと呼ばれるトランスファービリティを考慮したタスク埋め込みを提案し、そのガイダンスに基づいてハイパーネットフレームワークを構築する。
論文 参考訳(メタデータ) (2025-02-17T09:52:19Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Self-Attention Meta-Learner for Continual Learning [5.979373021392084]
SAM(Self-Attention Meta-Learner)は,タスクのシーケンスを学習する継続的学習の事前知識を学習する。
SAMには、将来のタスクごとに特定の関連する表現を選択することを学ぶアテンションメカニズムが組み込まれている。
タスク推論において,提案手法を Split CIFAR-10/100 と Split MNIST のベンチマークで評価した。
論文 参考訳(メタデータ) (2021-01-28T17:35:04Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。