論文の概要: CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models
- arxiv url: http://arxiv.org/abs/2605.06247v1
- Date: Thu, 07 May 2026 13:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.845733
- Title: CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models
- Title(参考訳): CKT-WAM:世界行動モデル間のパラメータ効率の良い文脈知識伝達
- Authors: Yuhua Jiang, Yijun Guo, Hongbing Yang, Guojun Lei, Nuo Chen, Yinuo Zhang, Shaoqiang Yan, Bo Lin, Feifei Gao, Biqing Qi,
- Abstract要約: 世界行動モデル(WAM)は、身体制御のための強力な生成フレームワークを提供する。
教師のWAMの知識を学生のWAMに伝達するフレームワークである textbfCKT-WAM を提案する。
CKT-WAMはゼロショットの一般化を一貫して改善し、LIBERO-Plusの全体的な性能を最高のものにしている。
- 参考スコア(独自算出の注目度): 45.34156934993461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World action models (WAMs) provide a powerful generative framework for embodied control, yet transferring knowledge across heterogeneous WAMs remains challenging due to mismatched latent interfaces, high adaptation cost, and the rigidity of conventional distillation objectives. We propose \textbf{CKT-WAM}, a parameter-efficient \textbf{C}ontext \textbf{K}nowledge \textbf{T}ransfer framework that transfers teacher WAM's knowledge into a student WAM through a compact context in the text embedding space, rather than output imitation or dense hidden-state matching. Specifically, CKT-WAM extracts intermediate teacher hidden states, reduces the number of tokens via compressors' learnable-query cross attention (LQCA), and transforms them through an always-on generalized adapter, a lightweight router, and sparsely activated specialized adapters. The resulting context is then appended to the student's conditioning textual embeddings, thereby injecting the transferred knowledge into the student with minimal architectural modification. Experiments show that CKT-WAM consistently improves zero-shot generalization and achieves the best overall performance on LIBERO-Plus, reaching 86.1\% total success rate with only 1.17\% trainable parameters, while approaching full fine-tuning performance. Beyond simulation, CKT-WAM also demonstrates strong real-world long-horizon manipulation ability, achieving the best average success rate of 83.3\% across four multi-step and long-horizon tasks. Code is available at https://github.com/YuhuaJiang2002/CKT-WAM.
- Abstract(参考訳): 世界行動モデル(WAM)は、制御を具現化するための強力な生成フレームワークを提供するが、不適合な潜水界面、高い適応コスト、従来の蒸留目標の剛性により、不均一なWAM間で知識を伝達することは依然として困難である。
本稿では,教師の WAM の知識を,テキスト埋め込み空間のコンパクトなコンテキストを通じて学生 WAM に伝達する,パラメータ効率の高い \textbf{C}ontext \textbf{K}nowledge \textbf{T}ransfer フレームワークを提案する。
具体的には、CKT-WAMは中間教師の隠れ状態を抽出し、圧縮機のLQCA(Learable-query Cross attention)を介してトークン数を減らし、常にオンの汎用アダプタ、軽量ルータ、わずかにアクティベートされた特殊アダプタを通じて変換する。
得られたコンテキストは、学生の条件付きテキスト埋め込みに付加され、変換された知識を最小限のアーキテクチャ修正で学生に注入する。
実験の結果、CKT-WAMはゼロショットの一般化を一貫して改善し、LIBERO-Plusの全体的な性能は86.1 %まで向上し、トレーニング可能なパラメータは1.17 %に過ぎなかった。
シミュレーション以外にも、CKT-WAMは4つのマルチステップおよびロングホライゾンタスクの平均成功率83.3\%を達成し、強力な現実世界のロングホライゾン操作能力を示す。
コードはhttps://github.com/YuhuaJiang2002/CKT-WAMで公開されている。
関連論文リスト
- Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models [75.27089289058613]
textbfTIES(textbfTau-guided textbfInter-layer textbfEfficient textbfSelection)は、層間トークンランキングの整合性によって導かれる動的フレームワークである。
CogACT + SIMPLERベンチマークでは、TIESは平均成功率を6%改善し、トークン使用率を78%削減した。
論文 参考訳(メタデータ) (2026-03-26T02:13:03Z) - Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework [48.66685912952879]
We introduced Edge Ultra-lIte BERT framework with a novel cross-distillation method。
我々は,自然言語理解(NLU)タスクにおいて,たった1.91MBの非常にコンパクトなBERTモデルを実現する。
論文 参考訳(メタデータ) (2025-07-07T03:38:09Z) - Ken Utilization Layer: Hebbian Replay Within a Student's Ken for Adaptive Knowledge Tracing [11.25951282067287]
KUL-KTは、生物学的にインスパイアされた知識追跡アーキテクチャ(KT)である
Hebbianメモリエンコーディングとグラデーションベースの統合を、スケーラブルで入力に依存しないフレームワークで組み合わせる。
i) 優雅な記憶を可能にするヘビアンメモリ更新, (ii) 理想的な内部状態を計算するためのロス整合型内部ターゲット (LIT) メソッド。
論文 参考訳(メタデータ) (2025-06-18T00:06:28Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - A Contrastive Knowledge Transfer Framework for Model Compression and
Transfer Learning [5.239675888749389]
本稿では,CKTF(Contrastive Knowledge Transfer Framework)を提案する。
CKTFは、教師から生徒への十分な構造的知識の伝達を可能にし、複数の対照的な目的を最適化する。
CKTFは既存のKTを0.04%から11.59%、トランスファーラーニングでは0.4%から4.75%で上回っている。
論文 参考訳(メタデータ) (2023-03-14T02:45:41Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。