論文の概要: Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision
- arxiv url: http://arxiv.org/abs/2509.09893v1
- Date: Thu, 11 Sep 2025 23:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.940973
- Title: Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision
- Title(参考訳): 自己拡張型ロボット軌道:デモレータ付加精度による安全自己拡張による効率的な模倣学習
- Authors: Hanbit Oh, Masaki Murooka, Tomohiro Motoda, Ryoichi Nakajo, Yukiyasu Domae,
- Abstract要約: 自己拡張型ロボット軌道(Self-Augmented Robot Trajectory, SART)は、一つの人間のデモンストレーションからポリシー学習を可能にするフレームワークである。
SARTは、人間による実証にのみ訓練されたポリシーよりも、はるかに高い成功率を達成する。
- 参考スコア(独自算出の注目度): 2.3548641190233264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning is a promising paradigm for training robot agents; however, standard approaches typically require substantial data acquisition -- via numerous demonstrations or random exploration -- to ensure reliable performance. Although exploration reduces human effort, it lacks safety guarantees and often results in frequent collisions -- particularly in clearance-limited tasks (e.g., peg-in-hole) -- thereby, necessitating manual environmental resets and imposing additional human burden. This study proposes Self-Augmented Robot Trajectory (SART), a framework that enables policy learning from a single human demonstration, while safely expanding the dataset through autonomous augmentation. SART consists of two stages: (1) human teaching only once, where a single demonstration is provided and precision boundaries -- represented as spheres around key waypoints -- are annotated, followed by one environment reset; (2) robot self-augmentation, where the robot generates diverse, collision-free trajectories within these boundaries and reconnects to the original demonstration. This design improves the data collection efficiency by minimizing human effort while ensuring safety. Extensive evaluations in simulation and real-world manipulation tasks show that SART achieves substantially higher success rates than policies trained solely on human-collected demonstrations. Video results available at https://sites.google.com/view/sart-il .
- Abstract(参考訳): 模倣学習は、ロボットエージェントを訓練する上で有望なパラダイムである。しかし、標準的なアプローチでは、信頼性の高いパフォーマンスを保証するために、多くのデモやランダムな探索を通じて、実質的なデータ取得が必要となる。
探索は人間の努力を減らすが、安全保証が欠如しており、特にクリアランス限定の作業(ペグインホールなど)で頻繁に衝突し、手動による環境リセットが必要となり、人的負担が増す。
本研究では,SART(Self-Augmented Robot Trajectory)を提案する。
SARTは、(1)1つのデモンストレーションが提供され、(キーウェイポイントの周りの球体として表現される)精度境界が注釈付けされ、続いて1つの環境リセット、(2)ロボットがこれらの境界内で多様な無衝突軌道を生成し、元のデモに再接続するロボット自己拡張という2つの段階から構成される。
この設計は、安全性を確保しつつ、人間の努力を最小限にすることで、データ収集効率を向上させる。
シミュレーションと実世界の操作タスクにおける広範囲な評価は、SARTが人為的な実証にのみ訓練されたポリシーよりもはるかに高い成功率を達成することを示している。
ビデオはhttps://sites.google.com/view/sart-il で公開されている。
関連論文リスト
- Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy [33.18108154271181]
ロボットが自然環境下で操作タスクを実行できるシンプルでスケーラブルな方法であるDemoDiffusionを提案する。
まず、人間の実演における手の動きは、ロボットのエンドエフェクター軌道に有用な事前情報を提供する。
第二に、この再ターゲティングされた動きはタスクの全体構造をキャプチャするが、コンテキスト内でのもっともらしいロボットの動作とうまく一致しないかもしれない。
論文 参考訳(メタデータ) (2025-06-25T17:59:01Z) - Imitation Learning with Precisely Labeled Human Demonstrations [0.0]
この研究は、ハンドヘルドグリップを使って効率的なデータ収集を行うことの可能性を実証する先行研究に基づいている。
我々は、グリップの外観に対するユーザの制御を、特にユニークで、セグメンタブルな色を割り当てることで、正確なエンドエフェクタポーズ推定を可能にする。
本研究は,ロボットによる実演における性能の88.1%に到達可能な政策を,人間による実演を正確にラベル付けしたシミュレーションで示す。
論文 参考訳(メタデータ) (2025-04-18T17:12:00Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Semi-Supervised Active Learning for Semantic Segmentation in Unknown
Environments Using Informative Path Planning [27.460481202195012]
ロボットの視力を改善するために、自己監督的で完全に教師された能動学習手法が出現した。
セマンティックセグメンテーションの半教師付き能動学習のための計画法を提案する。
我々は、モデル不確実性の高い未探索空間のフロンティアに向けて導かれた適応地図ベースのプランナーを活用する。
論文 参考訳(メタデータ) (2023-12-07T16:16:47Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。