論文の概要: Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.03172v1
- Date: Tue, 06 May 2025 04:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.204973
- Title: Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement Learning
- Title(参考訳): ゴール・コンディション強化学習のためのNull Counterfactal Factor Interactions
- Authors: Caleb Chuck, Fan Feng, Carl Qi, Chang Shi, Siddhant Agarwal, Amy Zhang, Scott Niekum,
- Abstract要約: Hindsight relabelingは、目標条件付き強化学習において、スパーシリティを克服するための強力なツールである。
我々は、下流RLのサンプル効率を向上させるために、後向きのラベリングと相互作用を組み合わせたインタラクション(HInt)を導入する。
- 参考スコア(独自算出の注目度): 22.778380035995127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight relabeling is a powerful tool for overcoming sparsity in goal-conditioned reinforcement learning (GCRL), especially in certain domains such as navigation and locomotion. However, hindsight relabeling can struggle in object-centric domains. For example, suppose that the goal space consists of a robotic arm pushing a particular target block to a goal location. In this case, hindsight relabeling will give high rewards to any trajectory that does not interact with the block. However, these behaviors are only useful when the object is already at the goal -- an extremely rare case in practice. A dataset dominated by these kinds of trajectories can complicate learning and lead to failures. In object-centric domains, one key intuition is that meaningful trajectories are often characterized by object-object interactions such as pushing the block with the gripper. To leverage this intuition, we introduce Hindsight Relabeling using Interactions (HInt), which combines interactions with hindsight relabeling to improve the sample efficiency of downstream RL. However because interactions do not have a consensus statistical definition tractable for downstream GCRL, we propose a definition of interactions based on the concept of null counterfactual: a cause object is interacting with a target object if, in a world where the cause object did not exist, the target object would have different transition dynamics. We leverage this definition to infer interactions in Null Counterfactual Interaction Inference (NCII), which uses a "nulling'' operation with a learned model to infer interactions. NCII is able to achieve significantly improved interaction inference accuracy in both simple linear dynamics domains and dynamic robotic domains in Robosuite, Robot Air Hockey, and Franka Kitchen and HInt improves sample efficiency by up to 4x.
- Abstract(参考訳): Hindsight relabelingは、特にナビゲーションや移動といった特定の領域において、ゴール条件強化学習(GCRL)における疎結合を克服するための強力なツールである。
しかし、後向きのレザベリングは、オブジェクト中心のドメインで苦労することがある。
例えば、目標空間は、特定の目標ブロックを目標位置にプッシュするロボットアームで構成されていると仮定する。
この場合、後向きのレバーベリングはブロックと相互作用しない任意の軌道に対して高い報酬を与える。
しかしながら、これらの振舞いは、オブジェクトがすでにゴールにいるときにのみ有用である。
このような軌道に支配されるデータセットは、学習を複雑にし、失敗につながる可能性がある。
対象中心領域において、1つの重要な直観は、有意義な軌跡はしばしば、ブロックをグリップで押すようなオブジェクトとオブジェクトの相互作用によって特徴づけられることである。
この直感を生かして、下流RLのサンプル効率を向上させるために、後視ラベリングと相互作用を組み合わせたHindsight Relabeling Using Interactions (HInt)を導入する。
しかし, 下流GCRLでは, 相互作用の統計的定義が決定できないため, 因果オブジェクトが対象オブジェクトと相互作用している場合, 対象オブジェクトが存在しない場合, 対象オブジェクトが異なる遷移ダイナミクスを持つ場合, ヌル反ファクトの概念に基づく相互作用の定義を提案する。
この定義を利用して、Null Counterfactual Interaction Inference (NCII) における相互作用を推論する。
NCIIは、Robosuite, Robot Air Hockey, Franka Kitchen and HIntの単純な線形力学ドメインと動的ロボットドメインの両方において、相互作用推論の精度を大幅に改善し、サンプル効率を最大4倍改善することができる。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Cross-Embodied Affordance Transfer through Learning Affordance Equivalences [6.828097734917722]
我々は,物体,行動,効果を,私たちが「空き空間」と呼ぶ共通潜在空間内の1つの潜在ベクトルに統一するディープニューラルネットワークモデルを提案する。
我々のモデルは、一つのエージェントによって実行される個々のオブジェクトの振舞いを学習しない。
Affordance Equivalenceは、オブジェクトに対するアクションの一般化だけでなく、異なるロボットのアクションをリンクするクロス・エボディメント・トランスファーも促進する。
論文 参考訳(メタデータ) (2024-04-24T05:07:36Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - NIFT: Neural Interaction Field and Template for Object Manipulation [24.42098331719611]
NIFTは模倣学習を促進するための記述的かつ堅牢な相互作用表現である。
NIFは、各空間点と与えられた対象との関係を符号化するニューラルネットワークである。
NITは、オブジェクトのポーズを最適化するために、新しいオブジェクトインスタンスのNIFにおける機能マッチングを効果的にガイドする。
論文 参考訳(メタデータ) (2022-10-20T03:35:05Z) - Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned
Interactive Trajectory Prediction [29.701029725302586]
目標条件付きフレームワークを用いた共同軌道予測問題について検討する。
本研究では,条件付き変分自動エンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。
KLの消滅を回避する新しい手法を提案し、擬似ラベルを用いた解釈可能な対話型潜在空間を誘導する。
論文 参考訳(メタデータ) (2022-03-28T21:41:21Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。