論文の概要: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2506.10137v1
- Date: Wed, 11 Jun 2025 19:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.413877
- Title: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- Title(参考訳): 行動クローンにおける組合せ一般化のための自己予測表現
- Authors: Daniel Lawson, Adriana Hugessen, Charlotte Cloutier, Glen Berseth, Khimya Khetarpal,
- Abstract要約: 行動クローニング(BC)法は、ロボット工学などの分野における人間による実証からポリシーを学ぶ効果的な方法である。
目標条件付き行動クローニング(GCBC)法は、分散トレーニングタスクでうまく機能するが、新しい状態とゴールペアの条件付けを必要とするタスクに、必ずしもゼロショットを一般化するとは限らない。
本稿では,単純な表現学習目標である$textBYOL-gamma$ augmented GCBCを提案する。
- 参考スコア(独自算出の注目度): 11.911800293337862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral cloning (BC) methods trained with supervised learning (SL) are an effective way to learn policies from human demonstrations in domains like robotics. Goal-conditioning these policies enables a single generalist policy to capture diverse behaviors contained within an offline dataset. While goal-conditioned behavior cloning (GCBC) methods can perform well on in-distribution training tasks, they do not necessarily generalize zero-shot to tasks that require conditioning on novel state-goal pairs, i.e. combinatorial generalization. In part, this limitation can be attributed to a lack of temporal consistency in the state representation learned by BC; if temporally related states are encoded to similar latent representations, then the out-of-distribution gap for novel state-goal pairs would be reduced. Hence, encouraging this temporal consistency in the representation space should facilitate combinatorial generalization. Successor representations, which encode the distribution of future states visited from the current state, nicely encapsulate this property. However, previous methods for learning successor representations have relied on contrastive samples, temporal-difference (TD) learning, or both. In this work, we propose a simple yet effective representation learning objective, $\text{BYOL-}\gamma$ augmented GCBC, which is not only able to theoretically approximate the successor representation in the finite MDP case without contrastive samples or TD learning, but also, results in competitive empirical performance across a suite of challenging tasks requiring combinatorial generalization.
- Abstract(参考訳): 行動クローニング(BC)法は、ロボット工学などの分野における人間による実証からポリシーを学ぶ効果的な方法である。
これらのポリシの目標条件付けにより、オフラインデータセットに含まれるさまざまな振る舞いを、単一のジェネラリストポリシでキャプチャすることが可能になる。
目標条件付き行動クローニング(GCBC)法は、分散トレーニングタスクでうまく機能するが、ゼロショットを新しい状態とゴールペアの条件付けを必要とするタスク、すなわち組合せ一般化に必ずしも一般化するとは限らない。
部分的には、この制限は、BCが学んだ状態表現における時間的一貫性の欠如によるものであり、時間的関係のある状態が同様の潜在表現にエンコードされている場合、新しい状態とゴールのペアの分配外ギャップは減少する。
したがって、表現空間におけるこの時間的一貫性を奨励することは組合せ一般化を促進する。
現在の状態から訪れた将来の状態の分布を符号化した継承表現は、このプロパティをうまくカプセル化します。
しかし、従来の継承表現の学習方法は、対照的なサンプル、時間差学習(TD)、あるいはその両方に依存していた。
本稿では, 比較サンプルやTD学習を使わずに, 有限 MDP の場合における後続表現を理論的に近似できるだけでなく, 組合せ一般化を必要とする課題の集合に対して, 競合的な経験的性能をもたらす, 単純で効果的な表現学習目標である $\text{BYOL-}\gamma$ augmented GCBC を提案する。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。