論文の概要: UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.20231v1
- Date: Mon, 23 Feb 2026 18:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.481665
- Title: UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models
- Title(参考訳): UniLACT:ビジョン・ランゲージ・アクションモデルのための深度対応RGB遅延動作学習
- Authors: Manish Kumar Govind, Dominick Reilly, Pu Wang, Srijan Das,
- Abstract要約: 我々は、深度対応の潜伏事前学習を通して幾何学構造を組み込んだ変圧器ベースのVLAモデルUniLACTを紹介する。
我々は、RGBと深さの共有埋め込み空間を学習する統合潜在行動学習フレームワークUniLARNを提案する。
シミュレーションと実世界の両方の環境での実験は、深度認識された潜在行動表現の有効性を示した。
- 参考スコア(独自算出の注目度): 23.387376978512567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent action representations learned from unlabeled videos have recently emerged as a promising paradigm for pretraining vision-language-action (VLA) models without explicit robot action supervision. However, latent actions derived solely from RGB observations primarily encode appearance-driven dynamics and lack explicit 3D geometric structure, which is essential for precise and contact-rich manipulation. To address this limitation, we introduce UniLACT, a transformer-based VLA model that incorporates geometric structure through depth-aware latent pretraining, enabling downstream policies to inherit stronger spatial priors. To facilitate this process, we propose UniLARN, a unified latent action learning framework based on inverse and forward dynamics objectives that learns a shared embedding space for RGB and depth while explicitly modeling their cross-modal interactions. This formulation produces modality-specific and unified latent action representations that serve as pseudo-labels for the depth-aware pretraining of UniLACT. Extensive experiments in both simulation and real-world settings demonstrate the effectiveness of depth-aware unified latent action representations. UniLACT consistently outperforms RGB-based latent action baselines under in-domain and out-of-domain pretraining regimes, as well as on both seen and unseen manipulation tasks.
- Abstract(参考訳): ラベルなしビデオから学んだ潜在アクション表現は、ロボットアクションの明確な監督なしに視覚言語アクション(VLA)モデルを事前訓練するための有望なパラダイムとして最近登場した。
しかし、RGB観測からのみ派生した潜伏作用は主に外見駆動力学を符号化し、精密で接触に富んだ操作に必須な3D幾何学的構造が欠如している。
この制限に対処するために、UniLACTというトランスフォーマーベースのVLAモデルを導入する。
このプロセスを容易にするために、RGBと深さの共有埋め込み空間を学習し、それらの相互モーダル相互作用を明示的にモデル化した、逆動的および前方動的目的に基づく統合潜在行動学習フレームワークUniLARNを提案する。
この定式化は、UniLACTの深度認識事前学習のための擬似ラベルとして機能する、モダリティ特異的で統一された潜在行動表現を生成する。
シミュレーションと実世界の両方の環境における大規模な実験は、深度認識された潜在的行動表現の有効性を実証している。
UniLACTは、ドメイン内およびドメイン外の事前訓練体制下でのRGBベースの潜伏アクションベースラインと、見つからない操作タスクの両方において、一貫して優れています。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Semore: VLM-guided Enhanced Semantic Motion Representations for Visual Reinforcement Learning [11.901989132359676]
視覚強化学習(RL)のための新しいVLMベースのフレームワークである強化セマンティックモーション表現(Semore)を導入する。
セモアはRGBフローからデュアルパスバックボーンを通じてセマンティックとモーションの表現を同時に抽出する。
本手法は, 最先端の手法と比較して, 効率的かつ適応的な能力を示す。
論文 参考訳(メタデータ) (2025-12-04T16:54:41Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation [25.115056940401164]
リワードデザインは、ロボット操作のための視覚的強化学習において、依然として重要なボトルネックとなっている。
本研究では,画像から抽出したキーポイントを通して空間距離を暗黙的に推定する手法を提案する。
Reward Learning with Precipation Model (ReLAM) は、アクションフリーのビデオデモから高密度で構造化された報酬を自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T14:28:42Z) - ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。
本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:57:07Z) - Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文 参考訳(メタデータ) (2025-03-16T12:34:07Z) - Contrast-reconstruction Representation Learning for Self-supervised
Skeleton-based Action Recognition [18.667198945509114]
コントラスト再構成表現学習ネットワーク(CRRL)を提案する。
姿勢と運動のダイナミクスを同時に捉え、教師なし骨格に基づく行動認識を行う。
NTU RGB+D 60, NTU RGB+D 120, CMU mocap, NW-UCLA といったいくつかのベンチマークの実験結果から、提案したCRRL法が実現可能であることが示された。
論文 参考訳(メタデータ) (2021-11-22T08:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。