論文の概要: T2S: Tokenized Skill Scaling for Lifelong Imitation Learning
- arxiv url: http://arxiv.org/abs/2508.01167v1
- Date: Sat, 02 Aug 2025 03:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.737282
- Title: T2S: Tokenized Skill Scaling for Lifelong Imitation Learning
- Title(参考訳): T2S:生涯模擬学習のためのTokenized Skill Scaling
- Authors: Hongquan Zhang, Jingyu Gong, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie,
- Abstract要約: Tokenized Skill Scaling (T2S) という統合フレームワークを提案する。
モデルパラメータをトークン化することにより、従来の変換器の線形パラメータマッピングを入力と学習可能なトークン間の相互アテンションに変換する。
また,言語指導型スキルスケーリングを導入し,タスク間の知識の伝達を効率化し,パラメータの線形化を回避する。
- 参考スコア(独自算出の注目度): 40.17367611809713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge in lifelong imitation learning lies in the balance between mitigating catastrophic forgetting of previous skills while maintaining sufficient capacity for acquiring new ones. However, current approaches typically address these aspects in isolation, overlooking their internal correlation in lifelong skill acquisition. We address this limitation with a unified framework named Tokenized Skill Scaling (T2S). Specifically, by tokenizing the model parameters, the linear parameter mapping of the traditional transformer is transformed into cross-attention between input and learnable tokens, thereby enhancing model scalability through the easy extension of new tokens. Additionally, we introduce language-guided skill scaling to transfer knowledge across tasks efficiently and avoid linearly growing parameters. Extensive experiments across diverse tasks demonstrate that T2S: 1) effectively prevents catastrophic forgetting (achieving an average NBT of 1.0% across the three LIBERO task suites), 2) excels in new skill scaling with minimal increases in trainable parameters (needing only 8.0% trainable tokens in an average of lifelong tasks), and 3) enables efficient knowledge transfer between tasks (achieving an average FWT of 77.7% across the three LIBERO task suites), offering a promising solution for lifelong imitation learning.
- Abstract(参考訳): 生涯の模倣学習における主な課題は、以前のスキルの破滅的な忘れを軽減し、新しいスキルを取得するのに十分な能力を維持することのバランスにある。
しかしながら、現在のアプローチは一般的に、生涯にわたるスキル獲得における内部的相関を見越して、これらの側面を分離して扱う。
この制限をTokenized Skill Scaling (T2S)という統合フレームワークで解決する。
具体的には、モデルパラメータをトークン化することにより、従来のトランスフォーマーの線形パラメータマッピングを入力と学習可能なトークン間のクロスアテンションに変換することにより、新しいトークンの簡単な拡張によるモデルのスケーラビリティを向上させる。
さらに,言語指導型スキルスケーリングを導入し,タスク間の知識の伝達を効率化し,パラメータの線形化を回避する。
多様なタスクにわたる大規模な実験は、T2Sが示す。
1)破滅的な忘れ込みを効果的に防ぐ(3つのLIBEROタスクスイートで平均NBTが1.0%に達する)。
2)トレーニング可能なパラメータ(生涯平均でトレーニング可能なトークンはわずか8.0%)の増加を最小限に抑えた新しいスキルスケーリングが優れている。
3) タスク間の効率的な知識伝達を可能にする(3つのLIBEROタスクスイートで平均77.7%のFWTを達成する)。
関連論文リスト
- UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - A Plasticity-Aware Method for Continual Self-Supervised Learning in Remote Sensing [6.0163252984457145]
リモートセンシング(RS)における連続自己教師学習(CSSL)手法の注目度が高まっている。
既存のCSSLメソッドは、新しいタスクを学習しながら、破滅的な忘れを防ぐことに重点を置いている。
本稿では,タスクの逐次学習を目的とした新しいCSSL手法を提案する。
論文 参考訳(メタデータ) (2025-03-31T13:42:06Z) - Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。
この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。
非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文 参考訳(メタデータ) (2025-03-27T20:43:36Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Learn it or Leave it: Module Composition and Pruning for Continual Learning [48.07144492109635]
MoCL-Pは知識統合と計算オーバーヘッドのバランスをとる軽量な連続学習手法である。
評価の結果,MoCL-Pは最先端性能を実現し,パラメータ効率を最大3倍向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T19:18:28Z) - EXTRACT: Efficient Policy Learning by Extracting Transferable Robot Skills from Offline Data [22.471559284344462]
ほとんどの強化学習(RL)手法は、低レベルな行動空間上の最適ポリシーの学習に重点を置いている。
これらの手法はトレーニング環境ではうまく機能するが、新しいタスクに移行する柔軟性に欠ける。
我々は,従来の作業よりも短時間で新しいタスクを学習できる,スパースでイメージベースのロボット操作環境の実験を通じて実演する。
論文 参考訳(メタデータ) (2024-06-25T17:50:03Z) - ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale [18.396897413970965]
ScaLearnは単純かつパラメータ効率の高い2段階MTL法である。
我々はScaLearnが少数の転送パラメータを持つ強いベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-02T14:01:36Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - iTAML: An Incremental Task-Agnostic Meta-learning Approach [123.10294801296926]
人間は経験が成長するにつれて、新しい知識を継続的に学ぶことができる。
ディープニューラルネットワークにおける以前の学習は、新しいタスクでトレーニングされたときにすぐに消えてしまう可能性がある。
遭遇した全てのタスク間の平衡を維持するために,新しいメタラーニング手法を導入する。
論文 参考訳(メタデータ) (2020-03-25T21:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。