論文の概要: Self-Adapting Improvement Loops for Robotic Learning
- arxiv url: http://arxiv.org/abs/2506.06658v1
- Date: Sat, 07 Jun 2025 04:34:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.394908
- Title: Self-Adapting Improvement Loops for Robotic Learning
- Title(参考訳): ロボット学習のための自己適応型改善ループ
- Authors: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun,
- Abstract要約: 専門家によるデモンストレーションで訓練されたビデオ生成モデルは、ロボットタスクを解くためのパフォーマンスの高いテキスト条件付きビジュアルプランナーとして利用されてきた。
本研究では,自己生成トラジェクトリ上で,ドメイン内ビデオモデルを反復的に更新する自己改善ループ(SAIL)を提案する。
従来のドメイン内ビデオモデルトレーニングでは,新規タスクの繰り返しに対して,パフォーマンスが継続的に向上することが確認できた。
- 参考スコア(独自算出の注目度): 30.831669239990042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generative models trained on expert demonstrations have been utilized as performant text-conditioned visual planners for solving robotic tasks. However, generalization to unseen tasks remains a challenge. Whereas improved generalization may be facilitated by leveraging learned prior knowledge from additional pre-collected offline data sources, such as web-scale video datasets, in the era of experience we aim to design agents that can continuously improve in an online manner from self-collected behaviors. In this work we thus propose the Self-Adapting Improvement Loop (SAIL), where an in-domain video model iteratively updates itself on self-produced trajectories, collected through adaptation with an internet-scale pretrained video model, and steadily improves its performance for a specified task of interest. We apply SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks on a real robot arm, and find that performance improvements continuously emerge over multiple iterations for novel tasks initially unseen during original in-domain video model training. Furthermore, we discover that SAIL is surprisingly robust regarding if and how the self-collected experience is filtered, and the quality of the initial in-domain demonstrations. Through adaptation with summarized internet-scale data, and learning through online experience, we thus demonstrate a way to iteratively bootstrap a high-performance video model for solving novel robotic tasks through self-improvement.
- Abstract(参考訳): 専門家によるデモンストレーションで訓練されたビデオ生成モデルは、ロボットタスクを解くためのパフォーマンスの高いテキスト条件付きビジュアルプランナーとして利用されてきた。
しかし、目に見えないタスクへの一般化は依然として課題である。
ウェブスケールビデオデータセットなどのオフラインデータソースから学習した事前知識を活用することで、一般化の向上が促進される一方、経験の時代には、自己収集行動からオンライン的に継続的に改善できるエージェントを設計することを目指している。
そこで本研究では,自己適応改善ループ(SAIL)を提案する。このループでは,ドメイン内ビデオモデルが自己生成トラジェクトリを反復的に更新し,インターネットスケールの事前学習ビデオモデルに適応して収集し,特定のタスクに対するパフォーマンスを着実に改善する。
そこで本研究では,SAILを多種多様なMetaWorldタスクスイートに適用し,実際のロボットアーム上での2つの操作タスクについて検討した。
さらに、SAILは、自己コンパイル体験がフィルタリングされるかどうか、初期ドメイン内デモの品質に関して驚くほど堅牢であることがわかった。
要約したインターネットスケールデータに適応し、オンライン体験を通じて学習することで、自己改善によって新しいロボットタスクを解くための高性能ビデオモデルを反復的にブートストラップする方法を実証する。
関連論文リスト
- WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Solving New Tasks by Adapting Internet Video Knowledge [32.59550659951102]
本稿では,ロボットのタスクや設定にまたがる高度な一般化性能を一貫して達成する,逆確率適応と呼ばれる新しい適応戦略を提案する。
ロボット環境全体にわたって、サンプルデータの小さなスケールで強力なビデオモデルを適用することで、新しい行動への一般化を成功させることに成功した。
論文 参考訳(メタデータ) (2025-04-21T18:20:13Z) - VITAL: Interactive Few-Shot Imitation Learning via Visual Human-in-the-Loop Corrections [10.49712834719005]
イミテーション・ラーニング(IL)はロボット工学において強力なアプローチとして登場し、ロボットは人間の行動を模倣することで新しいスキルを身につけることができる。
その可能性にもかかわらず、ILのデータ収集プロセスは、ロジスティックな困難と高品質なデモンストレーションの獲得に伴う高コストのため、依然として重要な課題である。
本稿では,シミュレーションにおけるデータ拡張を通じて,少数の実演から大規模データ生成を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。