論文の概要: Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training
- arxiv url: http://arxiv.org/abs/2604.23121v1
- Date: Sat, 25 Apr 2026 03:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.165944
- Title: Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training
- Title(参考訳): Breaking Lock-In: ローデータVLA後のトレーニング下でのステアビリティの維持
- Authors: Suning Huang, Jiaqi Shao, Ke Wang, Qianzhong Chen, Jiankai Sun, Yanjiang Guo, Mac Schwager, Jeannette Bohg,
- Abstract要約: DeLockは、訓練後の視覚的グラウンドニングを保ち、テストタイムのコントラスト的プロンプトガイダンスを適用してロックインを緩和する。
8つのシミュレーションと実世界の評価を通じて、DeLockは一貫して強力なベースラインを上回り、最先端のジェネラリスト政策のパフォーマンスを上回ったり、上回ったりしている。
- 参考スコア(独自算出の注目度): 21.959613918512556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Have you ever post-trained a generalist vision-language-action (VLA) policy on a small demonstration dataset, only to find that it stops responding to new instructions and is limited to behaviors observed during post-training? We identify this phenomenon as lock-in: after low-data, supervised fine-tuning (SFT), the policy becomes overly specialized to the post-training data and fails to generalize to novel instructions, manifesting as concept lock-in (fixation on training objects/attributes) and spatial lock-in (fixation on training spatial targets). Many existing remedies introduce additional supervision signals, such as those derived from foundation models or auxiliary objectives, or rely on augmented datasets to recover generalization. In this paper, we show that the policy's internal pre-trained knowledge is sufficient: DeLock mitigates lock-in by preserving visual grounding during post-training and applying test-time contrastive prompt guidance to steer the policy's denoising dynamics according to novel instructions. Across eight simulation and real-world evaluations, DeLock consistently outperforms strong baselines and matches or exceeds the performance of a state-of-the-art generalist policy post-trained with substantially more curated demonstrations.
- Abstract(参考訳): 一般的な視覚-言語-アクション(VLA)ポリシーを小さなデモデータセット上でポストトレーニングしたことがありますか?
低データで教師付き微調整(SFT)を行うと、このポリシーはポストトレーニングデータに過度に特化して、概念ロックイン(訓練対象/属性の固定)や空間ロックイン(訓練対象の固定)として、新しい命令への一般化に失敗する。
多くの既存の治療法は、基礎モデルや補助目標から派生したもの、あるいは一般化を回復するために拡張データセットに依存するような追加の監視信号を導入している。
本稿では,政策の内的事前学習知識が十分であることを示す。DeLockは,ポストトレーニング中に視覚的接地を保ち,テスト時のコントラスト的インプロンプトガイダンスを適用して,新しい指示に従ってポリシーの認知力学を制御することによって,ロックインを緩和する。
8つのシミュレーションと実世界の評価を通じて、DeLockは一貫して強力なベースラインを上回り、最先端のジェネラリスト政策のパフォーマンスをはるかに向上したデモで上回ったり、上回ったりしている。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Behavior Constraining in Weight Space for Offline Reinforcement Learning [2.7184068098378855]
オフラインの強化学習では、ポリシーは単一のデータセットから学ぶ必要がある。
そこで,本研究では,本手法を重み空間内で直接制約する新しいアルゴリズムを提案し,その有効性を実験で実証する。
論文 参考訳(メタデータ) (2021-07-12T14:50:50Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。