論文の概要: Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.10594v1
- Date: Wed, 11 Feb 2026 07:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.540111
- Title: Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning
- Title(参考訳): Few-Shot Imitation Learning における人間による説明へのフロー型一般化
- Authors: Runze Tang, Penny Sweetser,
- Abstract要約: イミテーションラーニング(IL)は、ロボットが明示的なタスクモデリングなしでデモから複雑なスキルを学習することを可能にする。
これまでのほとんどの研究は、物体やロボットや手の動きを表現できない特定の点に焦点を合わせてきた。
本研究では,クロス・エボディメント学習のためのシーンフロー予測モデルを含むSFCrPを提案する。
- 参考スコア(独自算出の注目度): 9.99784972794748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) enables robots to learn complex skills from demonstrations without explicit task modeling, but it typically requires large amounts of demonstrations, creating significant collection costs. Prior work has investigated using flow as an intermediate representation to enable the use of human videos as a substitute, thereby reducing the amount of required robot demonstrations. However, most prior work has focused on the flow, either on the object or on specific points of the robot/hand, which cannot describe the motion of interaction. Meanwhile, relying on flow to achieve generalization to scenarios observed only in human videos remains limited, as flow alone cannot capture precise motion details. Furthermore, conditioning on scene observation to produce precise actions may cause the flow-conditioned policy to overfit to training tasks and weaken the generalization indicated by the flow. To address these gaps, we propose SFCrP, which includes a Scene Flow prediction model for Cross-embodiment learning (SFCr) and a Flow and Cropped point cloud conditioned Policy (FCrP). SFCr learns from both robot and human videos and predicts any point trajectories. FCrP follows the general flow motion and adjusts the action based on observations for precision tasks. Our method outperforms SOTA baselines across various real-world task settings, while also exhibiting strong spatial and instance generalization to scenarios seen only in human videos.
- Abstract(参考訳): イミテーションラーニング(IL)は、ロボットが明示的なタスクモデリングなしでデモから複雑なスキルを学習することを可能にするが、通常は大量のデモを必要とし、かなりの収集コストを発生させる。
従来の研究では、フローを中間表現として使用することにより、人間の動画を代用として利用し、必要なロボットデモの量を削減している。
しかし、これまでのほとんどの研究は、物体やロボットや手の動きを記述できない特定の点に焦点を合わせてきた。
一方、人間のビデオでのみ観察されるシナリオへの一般化を実現するためのフローに頼ることは、フローだけでは正確な動きの詳細を捉えることができないため、制限されている。
さらに,現場の観察を条件付けして正確な行動を生成することで,フロー条件付きポリシがトレーニング作業に過度に適合し,フローによって示される一般化が弱まる可能性がある。
これらのギャップに対処するために,クロス・エボディメント・ラーニング(SFCr)のためのシーンフロー予測モデルと,フロー・アンド・クロッピード・ポイント・クラウド条件付きポリシー(FCrP)を含むSFCrPを提案する。
SFCrはロボットと人間のビデオの両方から学び、あらゆる点の軌跡を予測する。
FCrPは一般的な流れの動きに従い、精密タスクの観測に基づいて動作を調整する。
提案手法は, 実世界のタスク設定において, SOTAのベースラインよりも優れており, また, 映像にのみ見られるシナリオに対して, 空間的, インスタンス的一般化が強い。
関連論文リスト
- CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。
以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow [10.674192015199996]
Embodiment-Centric Flow (EC-Flow)は、アクション未ラベルのビデオから操作を学ぶフレームワークである。
我々の重要な洞察は、エンボディメント固有のキネマティクスを取り入れることで、汎用的な操作シナリオへの一般化が著しく向上するということである。
EC-Flowを実行可能なロボットアクションに翻訳するには、キネマティックな制約を指定するのに標準的なロボットURDFファイルが必要である。
論文 参考訳(メタデータ) (2025-07-08T17:57:03Z) - ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow [4.2766838326810355]
教師なし大規模ビデオデータから事前ラベル付き表現を学習するフレームワークであるViSA-Flowを提案する。
まず、大規模人-物間相互作用ビデオデータから、生成訓練された意味行動の流れを自動的に抽出する。
第2に、この前者は、同じセマンティック抽象化パイプラインで処理された小さなロボットのデモセットを微調整することで、ターゲットロボットに効率的に適応する。
論文 参考訳(メタデータ) (2025-05-02T14:03:06Z) - Flow as the Cross-Domain Manipulation Interface [73.15952395641136]
Im2Flow2Actは、現実世界のロボットのトレーニングデータを必要とせずに、ロボットが現実世界の操作スキルを習得することを可能にする。
Im2Flow2Actはフロー生成ネットワークとフロー条件ポリシーの2つのコンポーネントから構成される。
我々はIm2Flow2Actの様々な実世界のタスクにおいて、剛性、調音、変形可能なオブジェクトの操作を含む能力を実証する。
論文 参考訳(メタデータ) (2024-07-21T16:15:02Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。