論文の概要: TarGF: Learning Target Gradient Field for Object Rearrangement
- arxiv url: http://arxiv.org/abs/2209.00853v1
- Date: Fri, 2 Sep 2022 07:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:02:32.379119
- Title: TarGF: Learning Target Gradient Field for Object Rearrangement
- Title(参考訳): TarGF: オブジェクト再配置のための学習対象のグラディエントフィールド
- Authors: Mingdong Wu, Fangwei Zhong, Yulong Xia, Hao Dong
- Abstract要約: 我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
- 参考スコア(独自算出の注目度): 8.49306925839127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Rearrangement is to move objects from an initial state to a goal
state. Here, we focus on a more practical setting in object rearrangement,
i.e., rearranging objects from shuffled layouts to a normative target
distribution without explicit goal specification. However, it remains
challenging for AI agents, as it is hard to describe the target distribution
(goal specification) for reward engineering or collect expert trajectories as
demonstrations. Hence, it is infeasible to directly employ reinforcement
learning or imitation learning algorithms to address the task. This paper aims
to search for a policy only with a set of examples from a target distribution
instead of a handcrafted reward function. We employ the score-matching
objective to train a Target Gradient Field (TarGF), indicating a direction on
each object to increase the likelihood of the target distribution. For object
rearrangement, the TarGF can be used in two ways: 1) For model-based planning,
we can cast the target gradient into a reference control and output actions
with a distributed path planner; 2) For model-free reinforcement learning, the
TarGF is not only used for estimating the likelihood-change as a reward but
also provides suggested actions in residual policy learning. Experimental
results in ball rearrangement and room rearrangement demonstrate that our
method significantly outperforms the state-of-the-art methods in the quality of
the terminal state, the efficiency of the control process, and scalability. The
code and demo videos are on our project website.
- Abstract(参考訳): オブジェクトの再配置は、オブジェクトを初期状態からゴール状態に移行することである。
ここでは、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから、明示的な目標仕様のない規範的目標分布へのオブジェクト配置に焦点を当てる。
しかし、AIエージェントにとっては、報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡をデモとして収集することは難しいため、依然として難しい。
したがって、タスクに対処するために強化学習や模倣学習アルゴリズムを直接採用することは不可能である。
本研究の目的は,手作り報酬関数の代わりに,対象分布からのサンプルのみを用いてポリシーを探索することである。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
オブジェクトの再配置では、TarGFは2つの方法で使用することができる。
1) モデルに基づく計画では, 目標勾配を参照制御にキャストし, 分散経路プランナーを用いて出力動作を行うことができる。
2) モデルフリー強化学習では, targfは報酬としての可能性変化を推定するだけでなく, 残留政策学習における提案行動も提供する。
ボール配置と室内配置の実験結果から,本手法は終端状態の品質,制御プロセスの効率,拡張性において,最先端の手法を著しく上回ることを示した。
コードとデモビデオはプロジェクトのWebサイトにある。
関連論文リスト
- Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。