論文の概要: Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation
- arxiv url: http://arxiv.org/abs/2201.12300v1
- Date: Fri, 28 Jan 2022 18:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:34:47.567254
- Title: Efficient Embedding of Semantic Similarity in Control Policies via
Entangled Bisimulation
- Title(参考訳): アンタングルバイシミュレーションによる制御法における意味的類似性の効率的な埋め込み
- Authors: Martin Bertran, Walter Talbott, Nitish Srivastava, Joshua Susskind
- Abstract要約: 視覚的障害の存在下での視覚入力からの一般化可能なポリシの学習は、強化学習において難しい問題である。
そこで本研究では,状態間の距離関数を指定可能なビシミュレーション・メトリックであるエンタングルド・ビシミュレーションを提案する。
本稿では,Distracting Control Suite (DCS) における従来の手法に比べて,絡み合ったバイシミュレーションが有意に改善可能であることを示す。
- 参考スコア(独自算出の注目度): 3.5092955099876266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning generalizeable policies from visual input in the presence of visual
distractions is a challenging problem in reinforcement learning. Recently,
there has been renewed interest in bisimulation metrics as a tool to address
this issue; these metrics can be used to learn representations that are, in
principle, invariant to irrelevant distractions by measuring behavioural
similarity between states. An accurate, unbiased, and scalable estimation of
these metrics has proved elusive in continuous state and action scenarios. We
propose entangled bisimulation, a bisimulation metric that allows the
specification of the distance function between states, and can be estimated
without bias in continuous state and action spaces. We show how entangled
bisimulation can meaningfully improve over previous methods on the Distracting
Control Suite (DCS), even when added on top of data augmentation techniques.
- Abstract(参考訳): 視覚障害の存在下で視覚入力から一般化可能なポリシーを学ぶことは、強化学習において難しい問題である。
これらの指標は、原則として、状態間の振る舞いの類似性を測定することによって、無関係な気晴らしに不変な表現を学習するために使用することができる。
これらのメトリクスの正確で偏りがなく、スケーラブルな評価は、継続的な状態とアクションシナリオにおいて明らかです。
本稿では、状態間の距離関数の仕様化を可能にするビシミュレーション計量である絡み合ったビシミュレーションを提案し、連続状態や行動空間のバイアスなしに推定できる。
本研究では,データ拡張技術に付加された場合においても,従来のDCS(Distracting Control Suite)の手法よりも有意な改善が可能であることを示す。
関連論文リスト
- Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Accounting for the Sequential Nature of States to Learn Features for
Reinforcement Learning [2.0646127669654826]
一般的な表現学習手法が失敗する原因となるデータの特性について検討する。
特に、状態が著しく重複しない環境では、可変オートエンコーダ(VAE)は有用な特徴を学習できない。
この失敗を単純なグリッドワールドドメインで実証し、その後、メトリック学習という形でソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-12T10:20:43Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Towards Certified Robustness of Distance Metric Learning [53.96113074344632]
我々は,距離学習アルゴリズムの一般化とロバスト性を改善するために,入力空間に逆のマージンを付与することを提唱する。
アルゴリズム的ロバスト性の理論手法を用いることにより,拡張マージンは一般化能力に有益であることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:51:53Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。