論文の概要: Learning Long-Context Diffusion Policies via Past-Token Prediction
- arxiv url: http://arxiv.org/abs/2505.09561v2
- Date: Mon, 19 May 2025 20:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.37182
- Title: Learning Long-Context Diffusion Policies via Past-Token Prediction
- Title(参考訳): 過去の知識予測による長期拡散政策の学習
- Authors: Marcel Torne, Andy Tang, Yuejiang Liu, Chelsea Finn,
- Abstract要約: 本稿では,過去の情報の保持を明示的に規則化する代替手法を提案する。
本稿では,過去の行動トークンの予測方法を学ぶための補助的タスクである過去トークン予測について紹介する。
4つの実世界と6つのシミュレートされたタスクを対象とした実験により,提案手法は長文拡散政策の性能を3倍に向上し,政策訓練を10倍以上高速化することを示した。
- 参考スコア(独自算出の注目度): 48.86967836229684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning over long sequences of observations and actions is essential for many robotic tasks. Yet, learning effective long-context policies from demonstrations remains challenging. As context length increases, training becomes increasingly expensive due to rising memory demands, and policy performance often degrades as a result of spurious correlations. Recent methods typically sidestep these issues by truncating context length, discarding historical information that may be critical for subsequent decisions. In this paper, we propose an alternative approach that explicitly regularizes the retention of past information. We first revisit the copycat problem in imitation learning and identify an opposite challenge in recent diffusion policies: rather than over-relying on prior actions, they often fail to capture essential dependencies between past and future actions. To address this, we introduce Past-Token Prediction (PTP), an auxiliary task in which the policy learns to predict past action tokens alongside future ones. This regularization significantly improves temporal modeling in the policy head, with minimal reliance on visual representations. Building on this observation, we further introduce a multistage training strategy: pre-train the visual encoder with short contexts, and fine-tune the policy head using cached long-context embeddings. This strategy preserves the benefits of PTP while greatly reducing memory and computational overhead. Finally, we extend PTP into a self-verification mechanism at test time, enabling the policy to score and select candidates consistent with past actions during inference. Experiments across four real-world and six simulated tasks demonstrate that our proposed method improves the performance of long-context diffusion policies by 3x and accelerates policy training by more than 10x.
- Abstract(参考訳): 多くのロボット作業において、長い連続した観察と行動に対する推論が不可欠である。
しかし、デモから効果的な長文ポリシーを学ぶことは依然として難しい。
コンテクストの長さが大きくなるにつれて、メモリ要求の増大によりトレーニングはますます高価になり、結果としてポリシー性能は低下することが多い。
近年の手法では、コンテキスト長を減らし、その後の決定に重要な歴史的情報を破棄することで、これらの問題を横取りすることが多い。
本稿では,過去の情報の保持を明示的に規則化する代替手法を提案する。
我々はまず、模倣学習においてコピーキャットの問題を再考し、最近の拡散政策における反対の課題を特定します。
そこで本稿では,過去のアクショントークンの予測方法を学ぶための補助的タスクとして,過去トークン予測(PTP)を導入する。
この正規化は、視覚的表現への依存を最小限に抑えて、ポリシーヘッドの時間的モデリングを大幅に改善する。
この観察に基づいて、我々は、短いコンテキストで視覚エンコーダを事前訓練し、キャッシュされた長文埋め込みを用いてポリシーヘッドを微調整する多段階トレーニング戦略をさらに導入する。
この戦略は、PTPの利点を保ちながら、メモリと計算オーバーヘッドを大幅に削減する。
最後に、PTPをテスト時に自己検証機構に拡張し、ポリシーが評価し、推論中に過去の行動と整合した候補を選択できるようにする。
4つの実世界と6つのシミュレートされたタスクを対象とした実験により,提案手法は長文拡散政策の性能を3倍に向上し,政策訓練を10倍以上高速化することを示した。
関連論文リスト
- Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:53Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文 参考訳(メタデータ) (2021-08-04T14:57:11Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。