論文の概要: TarGF: Learning Target Gradient Field for Object Rearrangement
- arxiv url: http://arxiv.org/abs/2209.00853v1
- Date: Fri, 2 Sep 2022 07:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:02:32.379119
- Title: TarGF: Learning Target Gradient Field for Object Rearrangement
- Title(参考訳): TarGF: オブジェクト再配置のための学習対象のグラディエントフィールド
- Authors: Mingdong Wu, Fangwei Zhong, Yulong Xia, Hao Dong
- Abstract要約: 我々は、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから規範的なターゲット分布へオブジェクトを並べ替えることに焦点を当てる。
報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡を実証として収集することは困難である。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
- 参考スコア(独自算出の注目度): 8.49306925839127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Rearrangement is to move objects from an initial state to a goal
state. Here, we focus on a more practical setting in object rearrangement,
i.e., rearranging objects from shuffled layouts to a normative target
distribution without explicit goal specification. However, it remains
challenging for AI agents, as it is hard to describe the target distribution
(goal specification) for reward engineering or collect expert trajectories as
demonstrations. Hence, it is infeasible to directly employ reinforcement
learning or imitation learning algorithms to address the task. This paper aims
to search for a policy only with a set of examples from a target distribution
instead of a handcrafted reward function. We employ the score-matching
objective to train a Target Gradient Field (TarGF), indicating a direction on
each object to increase the likelihood of the target distribution. For object
rearrangement, the TarGF can be used in two ways: 1) For model-based planning,
we can cast the target gradient into a reference control and output actions
with a distributed path planner; 2) For model-free reinforcement learning, the
TarGF is not only used for estimating the likelihood-change as a reward but
also provides suggested actions in residual policy learning. Experimental
results in ball rearrangement and room rearrangement demonstrate that our
method significantly outperforms the state-of-the-art methods in the quality of
the terminal state, the efficiency of the control process, and scalability. The
code and demo videos are on our project website.
- Abstract(参考訳): オブジェクトの再配置は、オブジェクトを初期状態からゴール状態に移行することである。
ここでは、オブジェクト配置のより実用的な設定、すなわち、シャッフルされたレイアウトから、明示的な目標仕様のない規範的目標分布へのオブジェクト配置に焦点を当てる。
しかし、AIエージェントにとっては、報酬工学の目標分布(目標仕様)を記述したり、専門家の軌跡をデモとして収集することは難しいため、依然として難しい。
したがって、タスクに対処するために強化学習や模倣学習アルゴリズムを直接採用することは不可能である。
本研究の目的は,手作り報酬関数の代わりに,対象分布からのサンプルのみを用いてポリシーを探索することである。
我々は、目標勾配場(TarGF)の学習にスコアマッチングの目的を用い、目標分布の可能性を高めるために各対象の方向を示す。
オブジェクトの再配置では、TarGFは2つの方法で使用することができる。
1) モデルに基づく計画では, 目標勾配を参照制御にキャストし, 分散経路プランナーを用いて出力動作を行うことができる。
2) モデルフリー強化学習では, targfは報酬としての可能性変化を推定するだけでなく, 残留政策学習における提案行動も提供する。
ボール配置と室内配置の実験結果から,本手法は終端状態の品質,制御プロセスの効率,拡張性において,最先端の手法を著しく上回ることを示した。
コードとデモビデオはプロジェクトのWebサイトにある。
関連論文リスト
- Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - ReorientDiff: Diffusion Model based Reorientation for Object
Manipulation [18.95498618397922]
望ましい設定でオブジェクトを操作できることは、ロボットが様々な実践的な応用を完了するための基本的な要件である。
本稿では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。
提案手法は,YCBオブジェクトの集合と吸引グリップを用いて評価し,95.2%のシミュレーション成功率を示す。
論文 参考訳(メタデータ) (2023-02-28T00:08:38Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。