論文の概要: Decoupled Action Head: Confining Task Knowledge to Conditioning Layers
- arxiv url: http://arxiv.org/abs/2511.12101v1
- Date: Sat, 15 Nov 2025 08:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.608698
- Title: Decoupled Action Head: Confining Task Knowledge to Conditioning Layers
- Title(参考訳): Decoupled Action Head: タスク知識をコンディショニング層に集約する
- Authors: Jian Zhou, Sihao Lin, Shuai Fu, Qi WU,
- Abstract要約: ビヘイビア・クローン(Behavior Cloning, BC)は、データ駆動型の教師あり学習手法である。
本研究では,無観測データを利用してキネマティックス生成したアクションヘッドを事前訓練する,分離されたトレーニングレシピを提案する。
本実験は, 流通シナリオと流通シナリオの両方において, このアプローチの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 14.665308261922464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior Cloning (BC) is a data-driven supervised learning approach that has gained increasing attention with the success of scaling laws in language and vision domains. Among its implementations in robotic manipulation, Diffusion Policy (DP), with its two variants DP-CNN (DP-C) and DP-Transformer (DP-T), is one of the most effective and widely adopted models, demonstrating the advantages of predicting continuous action sequences. However, both DP and other BC methods remain constrained by the scarcity of paired training data, and the internal mechanisms underlying DP's effectiveness remain insufficiently understood, leading to limited generalization and a lack of principled design in model development. In this work, we propose a decoupled training recipe that leverages nearly cost-free kinematics-generated trajectories as observation-free data to pretrain a general action head (action generator). The pretrained action head is then frozen and adapted to novel tasks through feature modulation. Our experiments demonstrate the feasibility of this approach in both in-distribution and out-of-distribution scenarios. As an additional benefit, decoupling improves training efficiency; for instance, DP-C achieves up to a 41% speedup. Furthermore, the confinement of task-specific knowledge to the conditioning components under decoupling, combined with the near-identical performance of DP-C in both normal and decoupled training, indicates that the action generation backbone plays a limited role in robotic manipulation. Motivated by this observation, we introduce DP-MLP, which replaces the 244M-parameter U-Net backbone of DP-C with only 4M parameters of simple MLP blocks, achieving a 83.9% faster training speed under normal training and 89.1% under decoupling.
- Abstract(参考訳): ビヘイビア・クローン(Behavior Cloning, BC)は、データ駆動型教師あり学習手法であり、言語や視覚領域における法則のスケーリングの成功によって注目を集めている。
ロボット操作における実装のうち、DP-CNN (DP-C) とDP-Transformer (DP-T) の2つの変種を持つDiffusion Policy (DP-C) は、連続的なアクションシーケンスを予測する利点を示す最も効果的で広く採用されているモデルの1つである。
しかし、DPと他のBCの手法は、ペアトレーニングデータの不足によって制約され続けており、DPの有効性の根底にある内部メカニズムは十分に理解されていないため、モデル開発における限定的な一般化と原則設計の欠如につながっている。
本研究では, ほぼ費用がかからないキネマティクス生成軌道を観測自由データとして活用し, 一般的なアクションヘッド(アクションジェネレータ)を事前訓練する, 分離されたトレーニングレシピを提案する。
予め訓練されたアクションヘッドは凍結され、特徴変調により新しいタスクに適応する。
本実験は, 流通シナリオと流通シナリオの両方において, このアプローチの有効性を実証するものである。
さらなる利点として、デカップリングはトレーニング効率を向上させる。例えば、DP-Cは最大41%のスピードアップを達成する。
さらに, 動作生成のバックボーンがロボット操作において限られた役割を担っていることが示唆された。
DP-MLPは、DP-Cの244MパラメータのU-Netバックボーンを、単純なMLPブロックの4Mパラメータに置き換え、通常のトレーニングで83.9%、デカップリングで89.1%高速化する。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。
既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。
これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文 参考訳(メタデータ) (2025-08-06T17:10:31Z) - Enhancing One-run Privacy Auditing with Quantile Regression-Based Membership Inference [22.843200081364873]
Differential Privacy(DP)監査は、DP-SGDのようなDPメカニズムのプライバシー保証を実証的に低くすることを目的としている。
近年,DP-SGDをホワイトボックス設定で効果的に評価できる一方的な監査手法が提案されている。
本研究では,より強力なメンバーシップ推論攻撃(MIA)へのアプローチを取り入れることで,ブラックボックス環境でのワンラン監査を改善する方法について検討する。
論文 参考訳(メタデータ) (2025-06-18T11:03:39Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。