論文の概要: Going with the Flow: Koopman Behavioral Models as Implicit Planners for Visuo-Motor Dexterity
- arxiv url: http://arxiv.org/abs/2602.07413v2
- Date: Tue, 10 Feb 2026 17:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.25265
- Title: Going with the Flow: Koopman Behavioral Models as Implicit Planners for Visuo-Motor Dexterity
- Title(参考訳): フローに進む: ビジュオ・モータ・デキスタリティのためのインプシットプランナーとしてのクープマン行動モデル
- Authors: Yunhai Han, Linhao Bai, Ziyu Xiao, Zhaodong Yang, Yogita Choudhary, Krishna Jha, Chuizheng Kong, Shreyas Kousik, Harish Ravichandar,
- Abstract要約: 本稿では,一様挙動モデル (UBMs) を紹介する。
Koopman-UBM は UBM の最初のインスタンス化であり、潜在視覚的特徴と固有受容的特徴の結合フローが構造化線形システムによって制御される統一表現を学習する。
- 参考スコア(独自算出の注目度): 1.6865201067073452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been rapid and dramatic progress in learning complex visuo-motor manipulation skills from demonstrations, thanks in part to expressive policy classes that employ diffusion- and transformer-based backbones. However, these design choices require significant data and computational resources and remain far from reliable, particularly within the context of multi-fingered dexterous manipulation. Fundamentally, they model skills as reactive mappings and rely on fixed-horizon action chunking to mitigate jitter, creating a rigid trade-off between temporal coherence and reactivity. In this work, we introduce Unified Behavioral Models (UBMs), a framework that learns to represent dexterous skills as coupled dynamical systems that capture how visual features of the environment (visual flow) and proprioceptive states of the robot (action flow) co-evolve. By capturing such behavioral dynamics, UBMs can ensure temporal coherence by construction rather than by heuristic averaging. To operationalize these models, we propose Koopman-UBM, a first instantiation of UBMs that leverages Koopman Operator theory to effectively learn a unified representation in which the joint flow of latent visual and proprioceptive features is governed by a structured linear system. We demonstrate that Koopman-UBM can be viewed as an implicit planner: given an initial condition, it computes the desired robot behavior with the resulting flow of visual features over the entire skill horizon. To enable reactivity, we introduce an online replanning strategy in which the model acts as its own runtime monitor that automatically triggers replanning when predicted and observed visual flow diverge. Across seven simulated and two real-world tasks, we demonstrate that K-UBM matches or exceeds the performance of SOTA baselines, while offering faster inference, smooth execution, robustness to occlusions, and flexible replanning.
- Abstract(参考訳): 拡散とトランスフォーマーベースのバックボーンを用いた表現力のあるポリシークラスのおかげで、デモから複雑なビジュオモーターの操作スキルを素早く、劇的な進歩を遂げた。
しかし、これらの設計選択には重要なデータと計算資源が必要であり、特にマルチフィンガード・デクスタラスな操作の文脈において、信頼性に欠ける。
基本的には、反応性マッピングとしてのスキルをモデル化し、ジッターを緩和するために固定水平アクションチャンキングに依存し、時間的コヒーレンスと反応性の厳密なトレードオフを生み出します。
本研究では,環境(視覚フロー)の視覚的特徴とロボット(行動フロー)の受容的状態が共進化する様子をとらえる,協調力学系として,器用なスキルを表現するためのフレームワークであるUnified Behavioral Models (UBMs)を紹介する。
このような行動力学を捉えることで、UBMはヒューリスティック平均化よりも建設による時間的コヒーレンスを確保することができる。
これらのモデルを運用するために、Koopman-UBMを提案する。Koopman-UBMは、Koopman演算子理論を利用して、潜在視覚的特徴と固有受容的特徴の結合フローが構造線形システムによって制御される統一表現を効果的に学習する。
そこで我々は,Koopman-UBMを暗黙のプランナーとみなすことが可能であることを実証した。
そこで我々は,モデルが独自の実行時モニタとして機能し,予測および観察された視覚フローの分岐時に自動的にリプランングをトリガーするオンラインリプランング戦略を導入する。
7つのシミュレーションと2つの実世界のタスクにおいて、K-UBMはSOTAベースラインの性能と一致し、かつ高速な推論、スムーズな実行、オクルージョンに対する堅牢性、フレキシブルリプランニングを提供する。
関連論文リスト
- FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models [36.00004339916959]
本稿では、連続因果配列として行動を生成するスタンドアロンの自己回帰(AR)アクションエキスパートを提案する。
我々の研究は、スケーラブルでコンテキスト対応のアクション生成スキーマを導入し、効果的なロボットポリシーをトレーニングするための堅牢な構造基盤を提供します。
論文 参考訳(メタデータ) (2026-03-10T18:03:29Z) - Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis [34.5994686982342]
強い意味表現は拡散と流れモデルの収束と生成の質を向上させる。
既存のアプローチは、主に外部モデルに依存しており、個別のトレーニングが必要であり、不整合した目標を運用し、予期しないスケーリングの振る舞いを示す。
本稿では,自己制御型フローマッチングパラダイムであるSelf-Flowを紹介する。
論文 参考訳(メタデータ) (2026-03-06T17:41:49Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - VITA: Vision-to-Action Flow Matching Policy [27.783132918359545]
VITAはノイズフリーで条件なしのポリシー学習フレームワークである。
フローマッチングを使って視覚表現を潜在アクションにマッピングする。
ALOHAとRoomimicの8つのシミュレーションと2つの実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-07-17T15:41:57Z) - KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。
それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。
マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文 参考訳(メタデータ) (2025-07-08T20:33:15Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。