論文の概要: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2506.10137v2
- Date: Wed, 15 Oct 2025 15:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.63766
- Title: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- Title(参考訳): 行動クローンにおける組合せ一般化のための自己予測表現
- Authors: Daniel Lawson, Adriana Hugessen, Charlotte Cloutier, Glen Berseth, Khimya Khetarpal,
- Abstract要約: 後続表現による長距離時間一貫性がいかに一般化を促進するかを示す。
次に,GCBCのための単純な表現学習目的である$textBYOL-gamma$を提案する。
- 参考スコア(独自算出の注目度): 20.1753113722028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While goal-conditioned behavior cloning (GCBC) methods can perform well on in-distribution training tasks, they do not necessarily generalize zero-shot to tasks that require conditioning on novel state-goal pairs, i.e. combinatorial generalization. In part, this limitation can be attributed to a lack of temporal consistency in the state representation learned by BC; if temporally correlated states are properly encoded to similar latent representations, then the out-of-distribution gap for novel state-goal pairs would be reduced. We formalize this notion by demonstrating how encouraging long-range temporal consistency via successor representations (SR) can facilitate generalization. We then propose a simple yet effective representation learning objective, $\text{BYOL-}\gamma$ for GCBC, which theoretically approximates the successor representation in the finite MDP case through self-predictive representations, and achieves competitive empirical performance across a suite of challenging tasks requiring combinatorial generalization.
- Abstract(参考訳): 目標条件付き行動クローニング(GCBC)法は、分散トレーニングタスクでうまく機能するが、ゼロショットを新しい状態とゴールペアの条件付けを必要とするタスク、すなわち組合せ一般化に必ずしも一般化するとは限らない。
部分的には、この制限は、BCが学んだ状態表現における時間的一貫性の欠如によるものであり、時間的相関状態が類似の潜在表現に適切にエンコードされている場合、新しい状態とゴールのペアの分配外ギャップは減少する。
我々はこの概念を、後続表現(SR)による長距離時間一貫性の促進がいかに一般化を促進するかを示すことによって定式化する。
次に,GCBC の単純な表現学習目標である $\text{BYOL-}\gamma$ を提案する。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z) - Augmenting GAIL with BC for sample efficient imitation learning [5.199454801210509]
本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2020-01-21T22:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。