論文の概要: Correspondence-Oriented Imitation Learning: Flexible Visuomotor Control with 3D Conditioning
- arxiv url: http://arxiv.org/abs/2512.05953v1
- Date: Fri, 05 Dec 2025 18:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.156624
- Title: Correspondence-Oriented Imitation Learning: Flexible Visuomotor Control with 3D Conditioning
- Title(参考訳): 対応指向型模倣学習:3次元コンディショニングによるフレキシブルビズモータ制御
- Authors: Yunhao Cao, Zubin Bhaumik, Jessie Jia, Xingyi He, Kuan Fang,
- Abstract要約: 本研究では,3次元のフレキシブルなタスク表現を持つビジュモータ制御のための条件付きポリシー学習フレームワークであるImitation-Oriented Learning (COIL)を紹介する。
COILはタスク、オブジェクト、動作パターンをまたいで一般化し、疎密な仕様と密な仕様の両方の下での現実世界の操作タスクの従来の方法と比べて、優れた粒度を達成する。
- 参考スコア(独自算出の注目度): 11.847696426774732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Correspondence-Oriented Imitation Learning (COIL), a conditional policy learning framework for visuomotor control with a flexible task representation in 3D. At the core of our approach, each task is defined by the intended motion of keypoints selected on objects in the scene. Instead of assuming a fixed number of keypoints or uniformly spaced time intervals, COIL supports task specifications with variable spatial and temporal granularity, adapting to different user intents and task requirements. To robustly ground this correspondence-oriented task representation into actions, we design a conditional policy with a spatio-temporal attention mechanism that effectively fuses information across multiple input modalities. The policy is trained via a scalable self-supervised pipeline using demonstrations collected in simulation, with correspondence labels automatically generated in hindsight. COIL generalizes across tasks, objects, and motion patterns, achieving superior performance compared to prior methods on real-world manipulation tasks under both sparse and dense specifications.
- Abstract(参考訳): 本稿では,3次元のフレキシブルなタスク表現を持つビジュモータ制御のための条件付きポリシー学習フレームワークであるCOILを紹介する。
このアプローチのコアでは、各タスクは、シーン内のオブジェクト上で選択されたキーポイントの意図された動きによって定義される。
一定数のキーポイントや一様間隔の時間間隔を仮定する代わりに、COILは異なるユーザ意図やタスク要求に適応して、空間的および時間的粒度の異なるタスク仕様をサポートする。
本研究では、この対応指向タスク表現をアクションにしっかりと基礎付けるために、複数の入力モードにまたがる情報を効果的に融合する時空間アテンション機構を備えた条件付きポリシーを設計する。
このポリシーは、シミュレーションで収集されたデモを使用して、スケーラブルなセルフ教師付きパイプラインを通じてトレーニングされ、通信ラベルが後から自動的に生成される。
COILはタスク、オブジェクト、モーションパターンをまたいで一般化し、疎密な仕様と密な仕様の両方の下での現実世界の操作タスクの従来の方法と比較して優れたパフォーマンスを達成する。
関連論文リスト
- Choose What to Observe: Task-Aware Semantic-Geometric Representations for Visuomotor Policy [66.60668908340429]
Visuomotor のポリシーは、生の RGB 観測において、過度な視覚的要因に適合するデモから学ぶ。
視覚的入力を共有表現に正準化するタスク対応観察インタフェースを提案する。
我々は,RoboMimic (Lift), ManiSkill YCB grasping under clutter, 4つのRLBench task under control appearance shifts, and two real-world Franka taskについて検討した。
論文 参考訳(メタデータ) (2026-03-09T01:21:26Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies [25.512068008948603]
MATCH POLICYは、高精度なピックと配置タスクを解決するパイプラインである。
アクション推論をポイントクラウド登録タスクに転送する。
非常に高いサンプル効率と、目に見えない構成への一般化性を実現する。
論文 参考訳(メタデータ) (2024-09-23T20:09:43Z) - Task-conditioned adaptation of visual features in multi-task policy learning [9.320904829966588]
本研究では,事前学習したウェイトを微調整する必要のないタスク条件付きアダプタと,行動クローンを訓練した単一ポリシーを導入する。
我々は,CortexBenchベンチマークから多種多様なタスクに対する手法の評価を行い,既存の作業と比べ,一つのポリシーで対処できることを示した。
論文 参考訳(メタデータ) (2024-02-12T15:57:31Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。