論文の概要: Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation
- arxiv url: http://arxiv.org/abs/2604.05544v1
- Date: Tue, 07 Apr 2026 07:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.698581
- Title: Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation
- Title(参考訳): クローズドループマニピュレーションのための参照型ビジュモータポリシー学習
- Authors: Jiahua Ma, Yiran Qin, Xin Wen, Yixiong Li, Yuyu Sun, Yulan Guo, Liang Lin, Ruimao Zhang,
- Abstract要約: Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
- 参考スコア(独自算出の注目度): 91.20850436220267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses a fundamental problem of visuomotor policy learning for robotic manipulation: how to enhance robustness in out-of-distribution execution errors or dynamically re-routing trajectories, where the model relies solely on the original expert demonstrations for training. We introduce the Referring-Aware Visuomotor Policy (ReV), a closed-loop framework that can adapt to unforeseen circumstances by instantly incorporating sparse referring points provided by a human or a high-level reasoning planner. Specifically, ReV leverages the coupled diffusion heads to preserve standard task execution patterns while seamlessly integrating sparse referring via a trajectory-steering strategy. Upon receiving a specific referring point, the global diffusion head firstly generates a sequence of globally consistent yet temporally sparse action anchors, while identifies the precise temporal position for the referring point within this sequence. Subsequently, the local diffusion head adaptively interpolates adjacent anchors based on the current temporal position for specific tasks. This closed-loop process repeats at every execution step, enabling real-time trajectory replanning in response to dynamic changes in the scene. In practice, rather than relying on elaborate annotations, ReV is trained only by applying targeted perturbations to expert demonstrations. Without any additional data or fine-tuning scheme, ReV achieve higher success rates across challenging simulated and real-world tasks.
- Abstract(参考訳): 本稿では,ロボット操作におけるビジュモータポリシー学習の基本的な課題として,アウト・オブ・ディストリビューション実行エラーや動的再帰軌道の堅牢性を高める方法について論じる。
Referring-Aware Visuomotor Policy (ReV) は、人間や高レベルの推論プランナーが提供するスパース参照ポイントを即時に組み込むことで、予期せぬ状況に適応できるクローズドループフレームワークである。
具体的には、ReVは結合拡散ヘッドを利用して標準タスク実行パターンを保存し、軌道制御戦略を介してスパース参照をシームレスに統合する。
グローバル拡散ヘッドは、特定の参照ポイントを受信すると、まず、このシーケンス内の参照ポイントの正確な時間位置を特定しながら、グローバルに一貫した時間的にスパースなアクションアンカーのシーケンスを生成する。
その後、局所拡散ヘッドは、特定のタスクに対する現在の時間位置に基づいて隣接アンカーを適応的に補間する。
このクローズドループプロセスは実行ステップ毎に繰り返し、シーンの動的変化に応じてリアルタイムの軌道変更を可能にする。
実際には、精巧なアノテーションに頼るのではなく、ReVは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
追加のデータや微調整のスキームがなければ、ReVはシミュレートされた実世界のタスクよりも高い成功率を達成する。
関連論文リスト
- FASTER: Rethinking Real-Time Flow VLAs [82.58822112377923]
VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
即時反応のための高速動作サンプリング(FASTER)を提案し,この問題を克服する。
論文 参考訳(メタデータ) (2026-03-19T17:51:37Z) - GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion [44.168491831527355]
本稿では,模倣学習を通じて学習した操作ポリシーの把握精度の向上と一般化に焦点を当てた。
既存の把握のための模倣学習技術は、しばしば不正確な把握の実行、空間的一般化の制限、オブジェクトの一般化の不足に悩まされる。
論文 参考訳(メタデータ) (2026-02-26T10:56:01Z) - Generalizing from References using a Multi-Task Reference and Goal-Driven RL Framework [12.131501436717969]
本研究では,人間の動作からヒューマノイドの動作を学習するためのマルチタスク強化学習フレームワークを提案する。
単一の目標条件付きポリシーは、同じ観測空間と行動空間を共有する2つのタスクで共同で訓練される。
これらの目的を共通の定式化内で協調最適化することにより、このポリシーは、密集した基準監督から構造化された人間のような運動スキルを取得する。
論文 参考訳(メタデータ) (2026-02-23T21:25:06Z) - Trust Region Continual Learning as an Implicit Meta-Learner [3.705371747297478]
我々は,生産的リプレイとフィッシャー計量信頼領域制約を併用した,エフェトラスト領域連続学習のハイブリッド視点について検討する。
局所近似では,MAMLスタイルの解釈を単一の暗黙的な内部ステップで行うことができた。
これにより、連続学習における創発的なメタラーニング特性が得られる。
論文 参考訳(メタデータ) (2026-02-02T18:19:16Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - CAPE: Context-Aware Diffusion Policy Via Proximal Mode Expansion for Collision Avoidance [15.311155448797386]
近位モード拡張(CAPE)による文脈対応拡散政策
CAPEは、文脈認識の事前と推論時のガイダンスで軌道分布モードを拡張する。
本研究では,多様な操作タスクに対するCAPEの評価を行った。
論文 参考訳(メタデータ) (2025-11-27T21:53:09Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。