論文の概要: FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.22056v2
- Date: Wed, 04 Mar 2026 10:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 16:56:46.889555
- Title: FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation
- Title(参考訳): FlowCorrect: ロボットマニピュレーションのための生成フローポリシーの効率的な相互補正
- Authors: Edgar Welte, Yitian Shi, Rosa Wolf, Maximillian Gilles, Rania Rayyes,
- Abstract要約: FlowCorrectはモジュール型のインタラクティブな模倣学習アプローチで、フローマッチング操作ポリシのデプロイメント時適応を可能にする。
実際のロボットを4つのテーブルトップタスク(ピック・アンド・プレイス、注ぐ、カップアップライト、挿入)で評価した。
修正予算の低いFlowCorrectは、以前に失敗したケースで80%の成功率を達成した。
- 参考スコア(独自算出の注目度): 0.7666240799116112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative manipulation policies can fail catastrophically under deployment-time distribution shift, yet many failures are near-misses: the robot reaches almost-correct poses and would succeed with a small corrective motion. We propose FlowCorrect, a modular interactive imitation learning approach that enables deployment-time adaptation of flow-matching manipulation policies from sparse, relative human corrections without retraining. During execution, a human provides brief corrective pose nudges via a lightweight VR interface. FlowCorrect uses these sparse corrections to locally adapt the policy, improving actions without retraining the backbone while preserving the model performance on previously learned scenarios. We evaluate on a real-world robot across four tabletop tasks: pick-and-place, pouring, cup uprighting, and insertion. With a low correction budget, FlowCorrect achieves an 80% success rate on previously failed cases while preserving performance on previously solved scenarios. The results clearly demonstrate that FlowCorrect learns from very few demonstrations and enables fast, sample-efficient, incremental, human-in-the-loop corrections of generative visuomotor policies at deployment time in real-world robotics.
- Abstract(参考訳): 生成的操作ポリシーは、展開時分布シフトの下で破滅的に失敗する可能性があるが、多くの失敗は、ほぼ正しいポーズに到達し、小さな修正動作で成功する。
本研究では,フローマッチング制御ポリシーの展開時適応を可能にするモジュール型インタラクティブな模倣学習手法であるFlowCorrectを提案する。
実行中、人間は軽量なVRインターフェースを通じて簡単な修正ポーズを提供する。
FlowCorrectは、これらのスパース修正を使用してポリシーをローカルに適応し、以前に学習したシナリオでモデルパフォーマンスを保持しながら、バックボーンをトレーニングすることなくアクションを改善する。
実際のロボットを4つのテーブルトップタスク(ピック・アンド・プレイス、注ぐ、カップアップライト、挿入)で評価した。
低い修正予算で、FlowCorrectは、以前に解決されたシナリオのパフォーマンスを維持しながら、以前に失敗したケースで80%の成功率を達成した。
その結果、FlowCorrectはごく少数のデモから学習し、実世界のロボティクスにおけるデプロイ時の生成的ビジュモータポリシーの高速で、サンプル効率、インクリメンタルな、ループ内修正を可能にすることが明らかになった。
関連論文リスト
- Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。
VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文 参考訳(メタデータ) (2026-02-03T19:50:16Z) - Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment [7.446137164545049]
選択フローアライメント(Selective Flow Alignment、SeFA)は、効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択的フローアライメント戦略によって解決する。
推論遅延を98%以上削減しながら、精度と堅牢性を向上する。
論文 参考訳(メタデータ) (2025-11-11T18:59:39Z) - Failure Prediction at Runtime for Generative Robot Policies [6.375597233389154]
実行中の早期の障害予測は、人間中心で安全クリティカルな環境でロボットをデプロイするために不可欠である。
本稿では,フェールデータを必要としない生成ロボットポリシーの故障予測フレームワークであるFIPERを提案する。
その結果、FIPERは実際の障害と良質なOOD状況とをよく区別し、既存の手法よりも正確に早期に障害を予測できることがわかった。
論文 参考訳(メタデータ) (2025-10-10T15:09:27Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。