論文の概要: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- arxiv url: http://arxiv.org/abs/2506.10137v2
- Date: Wed, 15 Oct 2025 15:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.63766
- Title: Self-Predictive Representations for Combinatorial Generalization in Behavioral Cloning
- Title(参考訳): 行動クローンにおける組合せ一般化のための自己予測表現
- Authors: Daniel Lawson, Adriana Hugessen, Charlotte Cloutier, Glen Berseth, Khimya Khetarpal,
- Abstract要約: 後続表現による長距離時間一貫性がいかに一般化を促進するかを示す。
次に,GCBCのための単純な表現学習目的である$textBYOL-gamma$を提案する。
- 参考スコア(独自算出の注目度): 20.1753113722028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While goal-conditioned behavior cloning (GCBC) methods can perform well on in-distribution training tasks, they do not necessarily generalize zero-shot to tasks that require conditioning on novel state-goal pairs, i.e. combinatorial generalization. In part, this limitation can be attributed to a lack of temporal consistency in the state representation learned by BC; if temporally correlated states are properly encoded to similar latent representations, then the out-of-distribution gap for novel state-goal pairs would be reduced. We formalize this notion by demonstrating how encouraging long-range temporal consistency via successor representations (SR) can facilitate generalization. We then propose a simple yet effective representation learning objective, $\text{BYOL-}\gamma$ for GCBC, which theoretically approximates the successor representation in the finite MDP case through self-predictive representations, and achieves competitive empirical performance across a suite of challenging tasks requiring combinatorial generalization.
- Abstract(参考訳): 目標条件付き行動クローニング(GCBC)法は、分散トレーニングタスクでうまく機能するが、ゼロショットを新しい状態とゴールペアの条件付けを必要とするタスク、すなわち組合せ一般化に必ずしも一般化するとは限らない。
部分的には、この制限は、BCが学んだ状態表現における時間的一貫性の欠如によるものであり、時間的相関状態が類似の潜在表現に適切にエンコードされている場合、新しい状態とゴールのペアの分配外ギャップは減少する。
我々はこの概念を、後続表現(SR)による長距離時間一貫性の促進がいかに一般化を促進するかを示すことによって定式化する。
次に,GCBC の単純な表現学習目標である $\text{BYOL-}\gamma$ を提案する。
関連論文リスト
- Dual Goal Representations [57.43956630070019]
目標条件強化学習(GCRL)のための二重目標表現を導入する。
双対ゴール表現は「他の全ての状態から時間距離の集合」によって状態を特徴づける
両目標表現は、20のステートおよびピクセルベースのタスクにおいて、オフラインのゴール取得性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2025-10-08T07:07:39Z) - Understanding and Improving Length Generalization in Recurrent Models [21.417068818034817]
リカレントモデルは任意に長いシーケンスを処理できますが、そのパフォーマンスはトレーニングコンテキストの長さを超える場合があります。
トレーニング中のモデルが,到達可能な状態の分布の限られた部分集合にのみ露出した場合に,モデルが一般化されないことを示す。
モデルが訓練されている状態のカバレッジを高めるための簡単な訓練介入について検討する。
論文 参考訳(メタデータ) (2025-07-03T16:45:50Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - A State Representation for Diminishing Rewards [20.945260614372327]
マルチタスク強化学習(RL)における一般的な設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
自然界では、シーケンシャルなタスクは滅多に独立せず、代わりに報酬刺激の可利用性と主観的な認識に基づいて優先順位を変えることを反映している。
我々は、この設定でポリシー評価に必要とされる$lambda$ representation(lambda$R)を紹介します。
論文 参考訳(メタデータ) (2023-09-07T13:38:36Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Unsupervised Learning of Structured Representations via Closed-Loop
Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。
統一表現は、両方を持つことの相互利益を享受できることが示される。
これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文 参考訳(メタデータ) (2022-10-30T09:09:05Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T15:58:35Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z) - Augmenting GAIL with BC for sample efficient imitation learning [5.199454801210509]
本稿では,行動クローニングとGAILを組み合わせた簡易かつエレガントな手法を提案する。
我々のアルゴリズムは実装が非常に簡単であり、異なるポリシー勾配アルゴリズムと統合する。
本稿では,低次元制御タスク,グリッドワールド,高次元画像ベースタスクにおけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2020-01-21T22:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。