論文の概要: StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs
- arxiv url: http://arxiv.org/abs/2605.16353v2
- Date: Tue, 19 May 2026 02:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.909415
- Title: StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs
- Title(参考訳): StrLoRA: MLLMの連続的なビジュアルインストラクションチューニングに向けて
- Authors: Chang Che, Ziqi Wang, Hui Ma, Cheems Wang, Zenglin Shi,
- Abstract要約: 本稿では,タスクの動的混合を含むデータチャンクのストリームからモデルを学習するStreaming CVIT(StrCVIT)を紹介する。
StrCVITでは、モデルは同時に新しい能力を取得し、繰り返し能力を強化し、忘れなければならない。
正規化された2段階のエキスパートルーティングフレームワークであるStrLoRAを提案する。
- 参考スコア(独自算出の注目度): 9.912407135967836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Visual Instruction Tuning (CVIT) enables Multimodal Large Language Models to incrementally acquire new abilities. However, existing CVIT methods operate under a restrictive task-incremental setting, where each training phase corresponds to a single, predefined task. This does not reflect real-world conditions, where data arrives as a continuous stream of interleaved and dynamically evolving tasks. To bridge this gap, we introduce Streaming CVIT (StrCVIT), a more general and realistic setting where models learn from a stream of data chunks containing a dynamic mixture of tasks. In StrCVIT, a model must simultaneously acquire new abilities, reinforce recurring abilities, and mitigate forgetting. Existing CVIT methods fail here as they cannot reliably distinguish or adapt to the heterogeneous task samples within each chunk. We therefore propose StrLoRA, a regularized two-stage expert routing framework. StrLoRA first performs task-aware expert selection using the textual instruction to activate a sparse subset of relevant experts, reducing cross-task interference. It then applies token-wise expert weighting within this subset, where contribution weights are computed via cross-modal attention between local visual tokens and the global instruction representation. To maintain stability across the non-stationary stream, a routing-stability regularization aligns current routing distributions with a historical exponential moving average reference. Extensive experiments on a newly developed StrCVIT benchmark show that StrLoRA substantially outperforms existing methods, effectively enhancing model's abilities from continuously evolving data streams. The code is available at https://github.com/chanceche/StrCVIT.
- Abstract(参考訳): CVIT(Continuous Visual Instruction Tuning)は,マルチモーダル大規模言語モデルの新たな能力獲得を可能にする。
しかし、既存のCVITメソッドは、各トレーニングフェーズが1つの事前定義されたタスクに対応するような制限的なタスク増分設定の下で動作している。
これは、インターリーブされた、動的に進化するタスクの連続的なストリームとしてデータが到着する現実世界の条件を反映しない。
このギャップを埋めるために、私たちはStreaming CVIT(StrCVIT)を紹介します。
StrCVITでは、モデルは同時に新しい能力を取得し、繰り返し能力を強化し、忘れを軽減しなければならない。
既存のCVITメソッドは、各チャンク内の異種タスクサンプルを確実に識別または適応できないため、ここでは失敗する。
そこで我々は、正規化された2段階のエキスパートルーティングフレームワークであるStrLoRAを提案する。
StrLoRAはまずテキスト命令を使ってタスク認識の専門家の選択を行い、関連する専門家のスパースサブセットを活性化し、タスク間の干渉を減らす。
次に、このサブセット内でトークンに関する専門家の重み付けを適用し、貢献重み付けは局所的な視覚的トークンとグローバルな命令表現の間の相互注意によって計算される。
非定常ストリーム間の安定性を維持するために、ルーティング安定正則化は、現在のルーティング分布を歴史的な指数的移動平均基準と整列する。
新たに開発されたStrCVITベンチマークの大規模な実験により、StrLoRAは既存の手法よりも大幅に優れており、継続的なデータストリームの進化からモデルの性能を効果的に向上することが示された。
コードはhttps://github.com/chanceche/StrCVIT.comで公開されている。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Learning with Preserving for Continual Multitask Learning [4.847042727427382]
タスク出力の保存から共有表現空間の維持に焦点を移す新しいフレームワークであるLawP(Learning with Preserving)を紹介した。
LwPは破滅的な忘れを緩和するだけでなく、CMTLタスクにおける最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-11T22:23:20Z) - CKAA: Cross-subspace Knowledge Alignment and Aggregation for Robust Continual Learning [80.18781219542016]
継続的学習(CL)は、シーケンシャルなタスクストリームから継続的に学習するAIモデルに権限を与える。
近年,パラメータ効率のよい微調整(PEFT)によるCL法が注目されている。
ミスリード型タスクIDに対するロバスト性を高めるために,クロスサブスペース・ナレッジアライメント・アグリゲーション(CKAA)を提案する。
論文 参考訳(メタデータ) (2025-07-13T03:11:35Z) - One Train for Two Tasks: An Encrypted Traffic Classification Framework
Using Supervised Contrastive Learning [18.63871240173137]
CLE-TFE(Contrastive Learning Enhanced Temporal Fusion)と呼ばれる効果的なモデルを提案する。
特に、教師付きコントラスト学習を利用して、パケットレベルおよびフローレベル表現を強化する。
また、パケットレベルとフローレベルの分類タスクを1つのトレーニングで同時に行うクロスレベルマルチタスク学習を提案する。
論文 参考訳(メタデータ) (2024-02-12T09:10:09Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。