論文の概要: VR-DAgger: Immersive VR for Dexterous Data Collection and Uncertainty-Guided On-Policy Correction
- arxiv url: http://arxiv.org/abs/2605.27114v2
- Date: Thu, 28 May 2026 19:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 13:54:20.989137
- Title: VR-DAgger: Immersive VR for Dexterous Data Collection and Uncertainty-Guided On-Policy Correction
- Title(参考訳): VR-DAgger:不確実なデータ収集と不確実なオンライン補正のための没入型VR
- Authors: René Zurbrügg, Tifanny Portela, Arjun Bhardwaj, Aravind Elanjimattathil Vijayan, Maximum Wilder-Smith, Marco Hutter,
- Abstract要約: 提案するVR-DAggerは,遠隔操作,デモコレクション,選択的なポリシー修正のためのヒューマン・イン・ザ・ループ・フレームワークである。
VR-DAggerは、完全なロールアウトではなく、選択したセグメントをレビューすることで、サンプル単位のコレクション時間を約40%削減する。
- 参考スコア(独自算出の注目度): 5.847492700915662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstrations is effective for robotic manipulation, but collecting sufficient task-specific data remains a major bottleneck. Under distribution shift, small errors compound, performance degrades, and expert time is often spent on redundant, low-value corrections instead of the few critical failure cases. We present VR-DAgger, a human-in-the-loop framework centered on an immersive VR application for dexterous teleoperation, demonstration collection, and selective policy correction. The VR client provides intuitive hand control with synchronized scene visualization, while a backend workstation runs simulation and learning, enabling autonomous rollouts without continuous operator oversight. We use Monte Carlo (MC) dropout to score uncertainty during Isaac Lab rollouts of a diffusion policy and select informative failure segments for correction. These segments are replayed in VR as clips, where the operator selectively labels and corrects the policy's behavior, concentrating supervision where uncertainty is highest without full-rollout monitoring or a separate intervention classifier. We evaluate on three dexterous manipulation tasks (Pan pick-and-place, Drawer opening, Valve turning) with a 10-DoF XHand under standard and challenging initial configurations. Active labeling consistently improves over behavioral cloning across all tasks, with gains of up to 23 percentage points. Compared to unguided human-in-the-loop inspection, VR-DAgger reduces per-sample collection time by approximately 40% by focusing review on selected segments rather than full rollouts.
- Abstract(参考訳): デモから学ぶことはロボット操作に有効だが、十分なタスク固有のデータを集めることは大きなボトルネックである。
分散シフトの下では、小さなエラーが複雑になり、パフォーマンスが低下し、専門家の時間は、少数の重大な障害ケースではなく、冗長で低い値の修正に費やされることが多い。
本稿では,没入型VRアプリケーションを中心としたVR-DAggerについて紹介する。
バックエンドのワークステーションはシミュレーションと学習を実行し、継続的なオペレータの監視なしに自律的なロールアウトを可能にする。
我々は、Isaac Labの拡散ポリシーのロールアウト中に不確実性を評価するためにMonte Carlo(MC)のドロップアウトを使用し、修正のために情報的障害セグメントを選択する。
これらのセグメントはVRでクリップとして再生され、オペレータがポリシーの動作を選択的にラベル付けして修正し、フルロールアウト監視や個別の介入分類器なしで不確実性が最も高い監視に集中する。
我々は,10-DoF XHand の3つの操作タスク (Pan Pick-and-place, Drawer Open, Valve Turn) を,標準的かつ困難な初期設定の下で評価した。
アクティブなラベル付けは、すべてのタスクにおける行動的クローンよりも一貫して改善され、最大23ポイントまで上昇する。
イン・ザ・ループ検査と比較して、VR-DAggerは全ロールアウトではなく、選択したセグメントをレビューすることで、サンプルごとの収集時間を約40%短縮する。
関連論文リスト
- CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Reliably Detecting Model Failures in Deployment Without Labels [14.069153343960734]
本稿では,デプロイ後劣化(PDD)モニタリングの問題点を定式化し,対処する。
本稿では,予測モデルの相違に基づく,実用的で効率的なモニタリングアルゴリズムD3Mを提案する。
標準ベンチマークと実世界の大規模内科データセットによる実証的な結果から,フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2025-06-05T13:56:18Z) - DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning [57.285435980459205]
構成的視覚的推論アプローチは、エンド・ツー・エンドのVR手法よりも効果的な戦略として期待されている。
DWIM: ツールの使用状況を評価し, より訓練に有効である抽出を行う, 離散性を考慮したトレーニング生成手法を提案する。
Instruct-Masking fine-tuning — モデルに効果的なアクションをクローンすることのみをガイドし、より実用的なソリューションの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-25T01:57:59Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。