論文の概要: Physical Reasoning Using Dynamics-Aware Models
- arxiv url: http://arxiv.org/abs/2102.10336v1
- Date: Sat, 20 Feb 2021 12:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 12:20:56.419594
- Title: Physical Reasoning Using Dynamics-Aware Models
- Title(参考訳): Dynamics-Awareモデルを用いた物理推論
- Authors: Eltayeb Ahmed, Anton Bakhtin, Laurens van der Maaten, Rohit Girdhar
- Abstract要約: 本研究は、オブジェクトダイナミクスに関する追加の監視信号で報酬価値を高めることにより、この制限に対処することを目的とする。
具体的には、2つの対象物の軌道間の距離測度を定義し、この距離測度を用いて2つの環境ロールアウトの類似性を特徴づける。
我々は、正しい報酬を予測することに加えて、この尺度に従ってロールアウトを正しくランク付けするようにモデルを訓練する。
- 参考スコア(独自算出の注目度): 32.402950370430496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to solving physical-reasoning tasks is to train a value
learner on example tasks. A limitation of such an approach is it requires
learning about object dynamics solely from reward values assigned to the final
state of a rollout of the environment. This study aims to address this
limitation by augmenting the reward value with additional supervisory signals
about object dynamics. Specifically,we define a distance measure between the
trajectory of two target objects, and use this distance measure to characterize
the similarity of two environment rollouts.We train the model to correctly rank
rollouts according to this measure in addition to predicting the correct
reward. Empirically, we find that this approach leads to substantial
performance improvements on the PHYRE benchmark for physical reasoning: our
approach obtains a new state-of-the-art on that benchmark.
- Abstract(参考訳): 物理分析タスクを解決する一般的なアプローチは、例のタスクで値学習者をトレーニングすることです。
このようなアプローチの限界は、環境のロールアウトの最終状態に割り当てられた報酬値のみからオブジェクトのダイナミクスを学ぶ必要があることである。
本研究の目的は、オブジェクトのダイナミクスに関する追加の監視信号で報酬値を増大させることによって、この制限に対処することである。
具体的には、2つの対象物の軌道間の距離測度を定義し、2つの環境ロールアウトの類似性を特徴付けるためにこの距離測度を使用し、正しい報酬の予測に加えて、この測度に従ってロールアウトを正しくランク付けするモデルを訓練します。
実証的に、このアプローチは物理推論のためのPHYREベンチマークの大幅なパフォーマンス改善につながることが分かりました。
関連論文リスト
- A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning [5.406386303264086]
いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
論文 参考訳(メタデータ) (2020-02-15T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。