論文の概要: CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion
- arxiv url: http://arxiv.org/abs/2601.09512v1
- Date: Wed, 14 Jan 2026 14:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.426348
- Title: CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion
- Title(参考訳): CLARE:自律型アダプタルーティングと拡張によるビジョン・ランゲージ・アクションモデルの継続的な学習
- Authors: Ralf Römer, Yi Zhang, Angela P. Schoellig,
- Abstract要約: CLAREは、視覚-言語-アクションモデルによる模範のない連続学習のためのフレームワークである。
CLAREは,従来のタスクを壊滅的に忘れることなく,新しいタスクにおいて高いパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 9.808005698482914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To teach robots complex manipulation tasks, it is now a common practice to fine-tune a pre-trained vision-language-action model (VLA) on task-specific data. However, since this recipe updates existing representations, it is unsuitable for long-term operation in the real world, where robots must continually adapt to new tasks and environments while retaining the knowledge they have already acquired. Existing continual learning methods for robotics commonly require storing previous data (exemplars), struggle with long task sequences, or rely on task identifiers for deployment. To address these limitations, we propose CLARE, a general, parameter-efficient framework for exemplar-free continual learning with VLAs. CLARE introduces lightweight modular adapters into selected feedforward layers and autonomously expands the model only where necessary when learning a new task, guided by layer-wise feature similarity. During deployment, an autoencoder-based routing mechanism dynamically activates the most relevant adapters without requiring task labels. Through extensive experiments on the LIBERO benchmark, we show that CLARE achieves high performance on new tasks without catastrophic forgetting of earlier tasks, significantly outperforming even exemplar-based methods. Code and data are available at https://tum-lsy.github.io/clare.
- Abstract(参考訳): ロボットに複雑な操作タスクを教えるために、タスク固有のデータに基づいて事前訓練された視覚言語アクションモデル(VLA)を微調整することが一般的である。
しかし、このレシピは既存の表現を更新するので、ロボットが既に獲得した知識を維持しつつ、新しいタスクや環境に継続的に適応しなければならない現実世界での長期的な操作には適さない。
既存のロボット工学の継続的な学習方法は、通常、以前のデータ(例)を保存したり、長いタスクシーケンスに苦労したり、デプロイにタスク識別子に依存する必要がある。
これらの制約に対処するため,VLAを用いた非定型連続学習のための汎用的パラメータ効率フレームワークであるCLAREを提案する。
CLAREは、選択したフィードフォワード層に軽量なモジュラーアダプタを導入し、レイヤワイド機能の類似性によってガイドされた新しいタスクを学習する際にのみ、モデルを自律的に拡張する。
デプロイ中、オートエンコーダベースのルーティング機構はタスクラベルを必要とせずに、最も関連性の高いアダプタを動的に活性化する。
LIBEROベンチマークの広範な実験を通して、CLAREは従来のタスクを破滅的に忘れることなく、新しいタスクで高い性能を達成し、模範的手法よりもはるかに優れていたことを示す。
コードとデータはhttps://tum-lsy.github.io/clare.orgで公開されている。
関連論文リスト
- Learning with Preserving for Continual Multitask Learning [4.847042727427382]
タスク出力の保存から共有表現空間の維持に焦点を移す新しいフレームワークであるLawP(Learning with Preserving)を紹介した。
LwPは破滅的な忘れを緩和するだけでなく、CMTLタスクにおける最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-11T22:23:20Z) - RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models [20.826907313227323]
VLA(Multi-task vision-action')モデルは、ロボティクスのジェネラリスト基盤モデルとして、近年の公約を実証している。
そのようなモデルが本当に有用であるためには、エンドユーザは簡単に改善を教える手段を持っていなければなりません。
言語モデルや視覚モデルでは、コンテキスト内学習(ICL)を実行する能力は、新しいタスクを簡単に教えるための汎用的なインターフェースであることが証明されている。
論文 参考訳(メタデータ) (2025-08-04T05:01:11Z) - TaskVAE: Task-Specific Variational Autoencoders for Exemplar Generation in Continual Learning for Human Activity Recognition [1.0687457324219043]
継続的学習により、モデルがデータストリームの進化から学ぶことができ、事前知識の忘れを最小化できる。
本稿では,クラスインクリメンタル設定におけるリプレイベースCLのフレームワークであるTaskVAEを提案する。
すべてのタスクに対して、クラス数に関する事前の知識を必要とする伝統的なメソッドや単一のVAEに依存している伝統的なメソッドとは対照的に、TaskVAEはそのような制約なしにタスクの増加に柔軟に対応します。
論文 参考訳(メタデータ) (2025-05-10T17:42:01Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。