論文の概要: LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.21227v1
- Date: Thu, 27 Mar 2025 07:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:22.008516
- Title: LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models
- Title(参考訳): LLaVA-CMoE:大規模ビジョンランゲージモデルのためのエキスパートの継続的な混合を目指して
- Authors: Hengyuan Zhao, Ziqin Wang, Qixin Sun, Kaiyou Song, Yilin Li, Xiaolin Hu, Qingpei Guo, Si Liu,
- Abstract要約: LLaVA-CMoE は連続的なMixture of Experts (MoE) アーキテクチャであり、再生データを持たない革新的なフレームワークである。
具体的には,プローブ専門家を駆使して,さらなる知識が必要かどうかを評価する手法として, Probe-Guided Knowledge Extension (PGKE) を開発した。
また,PTL(Probabilistic Task Locator)と呼ばれる階層的ルーティングアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 21.888139819188105
- License:
- Abstract: Although applying Mixture of Experts to large language models for learning new tasks is widely regarded as an effective strategy for continuous learning, there still remain two major challenges: (1) As the number of tasks grows, simple parameter expansion strategies can lead to excessively large models. (2) Modifying the parameters of the existing router results in the erosion of previously acquired knowledge. In this paper, we present an innovative framework named LLaVA-CMoE, which is a continuous Mixture of Experts (MoE) architecture without any replay data. Specifically, we have developed a method called Probe-Guided Knowledge Extension (PGKE), which employs probe experts to assess whether additional knowledge is required for a specific layer. This approach enables the model to adaptively expand its network parameters based on task distribution, thereby significantly improving the efficiency of parameter expansion. Additionally, we introduce a hierarchical routing algorithm called Probabilistic Task Locator (PTL), where high-level routing captures inter-task information and low-level routing focuses on intra-task details, ensuring that new task experts do not interfere with existing ones. Our experiments shows that our efficient architecture has substantially improved model performance on the Coin benchmark while maintaining a reasonable parameter count.
- Abstract(参考訳): 新しいタスクを学習するための大きな言語モデルにエキスパートの混合を適用することは、継続的学習の効果的な戦略として広く見なされているが、(1)タスクの数が増加するにつれて、単純なパラメータ拡張戦略が過剰に大きなモデルに繋がる、という2つの大きな課題が残っている。
2) 既存のルータのパラメータを変更することで, 事前に取得した知識が侵食される。
本稿では,連続的なMixture of Experts(MoE)アーキテクチャであるLLaVA-CMoEという革新的なフレームワークを提案する。
具体的には,プローブの専門家を用いて,特定の層に付加的な知識が必要であるかどうかを判断する手法である Probe-Guided Knowledge Extension (PGKE) を開発した。
このアプローチにより,タスク分布に基づくネットワークパラメータの適応的拡張が可能となり,パラメータ拡張の効率が大幅に向上する。
さらに,PTL(Probabilistic Task Locator)と呼ばれる階層的ルーティングアルゴリズムを導入し,タスク間情報を高レベルなルーティングでキャプチャし,タスク内詳細を低レベルにルーティングすることで,新たなタスク専門家が既存のタスクに干渉しないようにする。
実験の結果,Coinベンチマークのモデル性能は,妥当なパラメータ数を維持しながら大幅に向上したことがわかった。
関連論文リスト
- Fresh-CL: Feature Realignment through Experts on Hypersphere in Continual Learning [3.708456605408296]
連続学習(Fresh-CL)におけるハイパーSpHereのエキスパートによる特徴認識手法を提案する。
本研究では,ETFの動的拡張を専門家の混合により提案し,様々な部分空間への適応射影を可能とし,特徴表現を向上する。
11のデータセットの実験では、最強のベースラインに比べて精度が2%向上した。
論文 参考訳(メタデータ) (2025-01-04T05:20:53Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Multi-Task Dense Prediction via Mixture of Low-Rank Experts [35.11968315125389]
MLoRE(Mixture-of-Low-Rank-Experts)と呼ばれる,マルチタスクの高密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
実験の結果,MLoREは従来のすべてのメトリクスの最先端手法に比べて優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-26T14:40:17Z) - Dense Network Expansion for Class Incremental Learning [61.00081795200547]
最先端のアプローチでは、ネットワーク拡張(NE)に基づいた動的アーキテクチャを使用し、タスクごとにタスクエキスパートを追加する。
精度とモデル複雑性のトレードオフを改善するために,新しい NE 手法である高密度ネットワーク拡張 (DNE) を提案する。
従来のSOTA法では、類似またはより小さなモデルスケールで、精度の点で4%のマージンで性能が向上した。
論文 参考訳(メタデータ) (2023-03-22T16:42:26Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。