論文の概要: Prepare Before You Act: Learning From Humans to Rearrange Initial States
- arxiv url: http://arxiv.org/abs/2509.18043v1
- Date: Mon, 22 Sep 2025 17:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.53312
- Title: Prepare Before You Act: Learning From Humans to Rearrange Initial States
- Title(参考訳): 人間から学習し、初期状態を再配置する前兆
- Authors: Yinlong Dai, Andre Keyser, Dylan P. Losey,
- Abstract要約: イミテーション学習(IL)は、幅広い操作タスクで有効であることが証明されている。
本稿では,初期状態を取り,オブジェクトのポーズを自律的に修正するアルゴリズムReSETを提案する。
- 参考スコア(独自算出の注目度): 4.637185817866919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) has proven effective across a wide range of manipulation tasks. However, IL policies often struggle when faced with out-of-distribution observations; for instance, when the target object is in a previously unseen position or occluded by other objects. In these cases, extensive demonstrations are needed for current IL methods to reach robust and generalizable behaviors. But when humans are faced with these sorts of atypical initial states, we often rearrange the environment for more favorable task execution. For example, a person might rotate a coffee cup so that it is easier to grasp the handle, or push a box out of the way so they can directly grasp their target object. In this work we seek to equip robot learners with the same capability: enabling robots to prepare the environment before executing their given policy. We propose ReSET, an algorithm that takes initial states -- which are outside the policy's distribution -- and autonomously modifies object poses so that the restructured scene is similar to training data. Theoretically, we show that this two step process (rearranging the environment before rolling out the given policy) reduces the generalization gap. Practically, our ReSET algorithm combines action-agnostic human videos with task-agnostic teleoperation data to i) decide when to modify the scene, ii) predict what simplifying actions a human would take, and iii) map those predictions into robot action primitives. Comparisons with diffusion policies, VLAs, and other baselines show that using ReSET to prepare the environment enables more robust task execution with equal amounts of total training data. See videos at our project website: https://reset2025paper.github.io/
- Abstract(参考訳): イミテーション学習(IL)は、幅広い操作タスクで有効であることが証明されている。
しかしながら、ILポリシーは、例えば、対象のオブジェクトが以前見えなかった位置にある場合や、他のオブジェクトによって隠蔽されている場合など、配布外観測に直面している場合、しばしば苦労する。
これらのケースでは、現在のILメソッドが堅牢で一般化可能な動作に到達するためには、広範なデモンストレーションが必要である。
しかし、人間がこのような非定型的な初期状態に直面している場合、より好ましいタスク実行のために環境を再構成することが多い。
例えば、コーヒーカップを回転させてハンドルをつかむのが簡単になるようにしたり、あるいは目標物を直接把握できるように箱を押したりすることができる。
本研究は,ロボット学習者が与えられたポリシーを実行する前に,ロボットが環境を準備できるように,ロボット学習者に同様の能力を持たせることを目的とする。
本稿では、ポリシーの配布外にある初期状態を取り出すアルゴリズムであるReSETを提案し、オブジェクトのポーズを自律的に修正し、再構成されたシーンがトレーニングデータと類似するようにする。
理論的には、この2段階のプロセス(所定のポリシーをロールアウトする前に環境を再配置)が一般化ギャップを減少させることを示す。
我々のReSETアルゴリズムは、アクション非依存の人間ビデオとタスク非依存の遠隔操作データを組み合わせる。
一 場面をいつ変更するか決めること
二 人間の行動の簡易化を予測し、
三 これらの予測をロボット行動プリミティブにマッピングすること。
拡散ポリシやVLA,その他のベースラインと比較すると,ReSETを環境の準備に利用することで,トレーニングデータの総量に等しいほど,より堅牢なタスク実行が可能になることが示されている。
プロジェクトのWebサイト https://reset2025paper.github.io/
関連論文リスト
- DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy [33.18108154271181]
ロボットが自然環境下で操作タスクを実行できるシンプルでスケーラブルな方法であるDemoDiffusionを提案する。
まず、人間の実演における手の動きは、ロボットのエンドエフェクター軌道に有用な事前情報を提供する。
第二に、この再ターゲティングされた動きはタスクの全体構造をキャプチャするが、コンテキスト内でのもっともらしいロボットの動作とうまく一致しないかもしれない。
論文 参考訳(メタデータ) (2025-06-25T17:59:01Z) - Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。
いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。
本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T14:20:33Z) - P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies [19.12762500264209]
Prescriptive Point Priors for Policies(P3-PO)は、環境のユニークな状態表現を構築する新しいフレームワークである。
P3-POは、新しいオブジェクトインスタンスとより散らかった環境のために、タスク全体で58%と80%のゲインを示す。
論文 参考訳(メタデータ) (2024-12-09T18:59:42Z) - Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Policy Adaptation from Foundation Model Feedback [31.5870515250885]
視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。
事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。
本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。
PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
論文 参考訳(メタデータ) (2022-12-14T18:31:47Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。