論文の概要: DeLo: Dual Decomposed Low-Rank Experts Collaboration for Continual Missing Modality Learning
- arxiv url: http://arxiv.org/abs/2603.01632v1
- Date: Mon, 02 Mar 2026 09:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.785617
- Title: DeLo: Dual Decomposed Low-Rank Experts Collaboration for Continual Missing Modality Learning
- Title(参考訳): DeLo: 継続的欠落のモダリティ学習のための2つの非分解型低ランクエキスパートコラボレーション
- Authors: Xiwei Liu, Yulong Li, Feilong Tang, Imran Razzak,
- Abstract要約: DeLoはCMML用の新しい二層分解型低ランクエキスパートアーキテクチャを利用する最初のフレームワークである。
我々の手法は最先端の手法よりも優れています。
これは、現実のマルチモーダルな課題に対して、原則としてアーキテクチャを意識したLoRA設計の価値を強調します。
- 参考スコア(独自算出の注目度): 33.51000015118141
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Adapting Large Multimodal Models (LMMs) to real-world scenarios poses the dual challenges of learning from sequential data streams while handling frequent modality incompleteness, a task known as Continual Missing Modality Learning (CMML). However, existing works on CMML have predominantly relied on prompt tuning, a technique that struggles with this task due to cross-task interference between its learnable prompts in their shared embedding space. A naive application of Low-Rank Adaptation (LoRA) with modality-shared module will also suffer modality interference from competing gradients. To this end, we propose DeLo, the first framework to leverage a novel dual-decomposed low-rank expert architecture for CMML. Specifically, this architecture resolves modality interference through decomposed LoRA expert, dynamically composing LoRA update matrix with rank-one factors from disentangled modality-specific factor pools. Embedded within a task-partitioned framework that structurally prevents catastrophic forgetting, this expert system is supported by two key mechanisms: a Cross-Modal Guided Routing strategy to handle incomplete data and a Task-Key Memory for efficient, task-agnostic inference. Extensive experiments on established CMML benchmarks demonstrate that our method significantly outperforms state-of-the-art approaches. This highlights the value of a principled, architecturally-aware LoRA design for real-world multimodal challenges.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)を現実のシナリオに適用すると、逐次データストリームから学習する上で、頻繁なモダリティの不完全性(CMML)を扱うという2つの課題が生じる。
しかし、CMMLに関する既存の研究は、主にプロンプトチューニングに依存しており、これは、学習可能なプロンプト間の相互タスクの干渉によって、そのタスクに苦労するテクニックである。
低ランク適応 (LoRA) のモダリティ共有モジュールによる単純適用は、競合する勾配からのモダリティ干渉を被る。
この目的のために我々は,CMML用の新しい二層分解型低ランクエキスパートアーキテクチャを利用した最初のフレームワークであるDeLoを提案する。
特に、このアーキテクチャは、分解されたLoRA専門家によってモダリティ干渉を解決し、アンタングル化されたモダリティ固有因子プールからランク1因子のLoRA更新行列を動的に構成する。
不完全なデータを処理するクロスモーダルガイドルーティング戦略と、効率的なタスクに依存しない推論のためのタスクキーメモリである。
確立されたCMMLベンチマークの大規模な実験により,本手法は最先端の手法よりも大幅に優れていることが示された。
これは、現実のマルチモーダルな課題に対して、原則としてアーキテクチャを意識したLoRA設計の価値を強調します。
関連論文リスト
- Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification [33.302856478333524]
リモートセンシングにおけるマルチモーダル分類は、環境干渉、センサーの故障、大気の影響によって生じるモダリティの欠如に悩まされることが多い。
既存の2段階適応法は計算コストが高く、訓練中に完全なマルチモーダルデータを仮定し、その一般化を実世界の不完全性に制限する。
マルチタスク学習問題として欠落したモダリティを再構成するMissing-Aware Mixture-of-Lorasフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-14T16:31:37Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning [12.165720711684758]
MLLMにおけるCVITに適した,高効率なアーキテクチャ拡張手法LiLoRAを紹介する。
LiLoRAはタスク間でLoRA行列Aを共有して冗長性を低減し、タスク固有のパラメータを最小化するために行列Bに追加の低ランク分解を適用し、コサイン規則化された安定性損失を組み込んで時間の経過とともに一貫性を維持する。
実験の結果,LiLoRAは逐次的タスク学習において一貫した性能を実現し,既存の手法に比べてパラメータ効率を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-08-08T10:32:38Z) - Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning [45.019751165506946]
マルチモーダル大規模言語モデル(MLLM)を進化タスクに適用するには,連続的マルチモーダル命令チューニングが不可欠である。
そこで本稿では,MLLMのアーキテクチャをパラメータ予算で自動的に進化させ,新しいタスクに継続的に適応する新しいD-MoLE法を提案する。
具体的には、動的レイヤワイド・エキスパート・アロケータを提案し、アーキテクチャの衝突を解決するために、レイヤ間でLoRA専門家を自動的に割り当てる。
そこで我々は,MLLMにおける各モジュールの更新率を,各モジュールの難易度に基づいて調整する,勾配に基づくモーダル間連続カリキュラムを提案する。
論文 参考訳(メタデータ) (2025-06-13T11:03:46Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs [5.018961516699825]
AsymLoRAは、知識のモジュール化と相互調整を統一するパラメータ効率のチューニングフレームワークである。
AsymLoRAは、共通点のみを捉えたバニラLoRAと、紛争のみに焦点を当てたLoRA-MoEの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-27T12:21:02Z) - Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。