論文の概要: Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping
- arxiv url: http://arxiv.org/abs/2603.03278v1
- Date: Tue, 03 Mar 2026 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.943472
- Title: Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping
- Title(参考訳): テザー: 対応駆動型軌道ウォーピングによる自律的機能プレイ
- Authors: William Liang, Sam Wang, Hung-Ju Wang, Osbert Bastani, Yecheng Jason Ma, Dinesh Jayaraman,
- Abstract要約: 構造化されたタスク指向インタラクションを含む自律型機能プレイ法であるTetherを紹介する。
まず、小さなソースのデモからアクションを警告する新しいオープンループポリシーを設計する。
第2に,タスク選択,実行,評価,改善の連続サイクルを通じて,現実の自律的機能プレイのためのこのポリシをデプロイする。
- 参考スコア(独自算出の注目度): 44.348686148716894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to conduct and learn from interaction and experience is a central challenge in robotics, offering a scalable alternative to labor-intensive human demonstrations. However, realizing such "play" requires (1) a policy robust to diverse, potentially out-of-distribution environment states, and (2) a procedure that continuously produces useful robot experience. To address these challenges, we introduce Tether, a method for autonomous functional play involving structured, task-directed interactions. First, we design a novel open-loop policy that warps actions from a small set of source demonstrations (<=10) by anchoring them to semantic keypoint correspondences in the target scene. We show that this design is extremely data-efficient and robust even under significant spatial and semantic variations. Second, we deploy this policy for autonomous functional play in the real world via a continuous cycle of task selection, execution, evaluation, and improvement, guided by the visual understanding capabilities of vision-language models. This procedure generates diverse, high-quality datasets with minimal human intervention. In a household-like multi-object setup, our method is the first to perform many hours of autonomous multi-task play in the real world starting from only a handful of demonstrations. This produces a stream of data that consistently improves the performance of closed-loop imitation policies over time, ultimately yielding over 1000 expert-level trajectories and training policies competitive with those learned from human-collected demonstrations.
- Abstract(参考訳): 対話や経験から学び、学習する能力は、ロボット工学における中心的な課題であり、労働集約的な人間のデモンストレーションに代わるスケーラブルな代替手段を提供する。
しかし,このような「遊び」を実現するためには,(1)多様な,潜在的にアウト・オブ・ディストリビューション環境に頑健な政策,(2)有用なロボット体験を継続的に生み出す手順が必要である。
これらの課題に対処するために、構造化されたタスク指向のインタラクションを含む自律的機能プレイ法であるTetherを紹介した。
まず、ターゲットシーンのセマンティックキーポイント対応にアンカーを固定することで、小さなソースデモ(=10)からのアクションを警告する新しいオープンループポリシーを設計する。
この設計は空間的・意味的な大きな変動の下でも極めてデータ効率が高く頑健であることを示す。
第2に、タスク選択、実行、評価、改善の連続サイクルを通じて、視覚言語モデルの視覚的理解能力によって導かれる、現実世界における自律的機能プレイのためのこのポリシーをデプロイする。
この手順は、人間の介入を最小限に抑えた多種多様な高品質なデータセットを生成する。
家庭のようなマルチオブジェクトのセットアップでは、ごく少数のデモから始めて、実世界で何時間も自律的なマルチタスクのプレイを行う最初の方法です。
これにより、クローズドループの模倣ポリシーのパフォーマンスを継続的に改善するデータストリームが生成され、最終的には1000以上の専門家レベルの軌道とトレーニングポリシーが、人間が収集したデモから学んだものと競合する。
関連論文リスト
- Coordinated Humanoid Manipulation with Choice Policies [43.635012621027904]
本稿では,モジュール型遠隔操作インタフェースとスケーラブルな学習フレームワークを組み合わせたシステムを提案する。
Choice Policy(選択ポリシー)は、複数の候補アクションを生成し、それらを評価することを学ぶ模倣学習アプローチである。
我々は,食器洗い機をロードする2つの現実的タスクと,ホワイトボードワイピングのための全身ロコ操作に関するアプローチを検証した。
論文 参考訳(メタデータ) (2025-12-31T18:59:53Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - Instant Policy: In-Context Imitation Learning via Graph Diffusion [12.879700241782528]
In-context Imitation Learning (ICIL)は、ロボット工学にとって有望な機会である。
Instant Policyを導入し、たった1、2つのデモからすぐに新しいタスクを学習します。
また,言語定義タスクへのクロスボデーメントやゼロショット転送の基盤として機能することを示す。
論文 参考訳(メタデータ) (2024-11-19T16:45:52Z) - Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames [10.738838923944876]
既存の方法は、タスクのバリエーションをカバーするために、かなりの数のデモを必要とする。
我々は、状態空間と行動空間の構造化表現である指向性アプライアンスフレームを導入する。
この抽象化によって、独立に訓練されたサブ政治の構成的一般化が可能となることを示す。
本手法は実世界の3つのタスクにまたがって検証し,多段階多目的インタラクションを必要とする。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。