論文の概要: SCAR: Self-Supervised Continuous Action Representation Learning
- arxiv url: http://arxiv.org/abs/2605.16412v1
- Date: Wed, 13 May 2026 16:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.305433
- Title: SCAR: Self-Supervised Continuous Action Representation Learning
- Title(参考訳): SCAR: 自己監督型継続的行動表現学習
- Authors: Hongjia Liu, Fan Feng, Minghao Fu, Xinyue Wang, Haofei Lu, Biwei Huang,
- Abstract要約: 視覚的遷移から具現化された動作表現を学習するための共同逆フォワード動的フレームワークであるSCARを提案する。
事前訓練された生成バックボーン上に構築されたSCARは、逆ダイナミクスモデル(IDM)を使用して、潜時観測ペアから潜時動作を推論し、フォワードダイナミクスモデル(FDM)を用いて、それらに条件付けられた将来のダイナミクスを予測する。
Procgen と Robotwin のデータセットの実験により、学習された統合潜在行動表現は、具体化固有の生の行動よりも、世界モデリングのためのより強い条件付けインターフェースとして機能することが示された。
- 参考スコア(独自算出の注目度): 36.917304453471864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the central role of action in embodied intelligence, learning transferable action representations from visual transitions remains a fundamental challenge, particularly when world models must generalize across embodiments under limited data. We argue that action is not merely an auxiliary conditioning signal, but a distinct representational factor that decouples the controllable change from embodiment-specific actuation. In this work, we propose SCAR, a joint inverse-forward dynamics framework for learning unified action representations across embodiments from visual transitions. Built on a pretrained generative backbone, SCAR uses an inverse dynamics model (IDM) to infer latent actions from latent observation pairs and a forward dynamics model (FDM) to predict future dynamics conditioned on them. To make the latent space transferable rather than a generic visual bottleneck, we regularize the latent action posterior toward a standard Gaussian prior to limit arbitrary visual encoding, and introduce adversarial invariance to suppress embodiment- and environment-specific nuisance factors. Experiments on the Procgen and Robotwin dataset show that the learned unified latent action representation serves as a stronger conditioning interface for world modeling than embodiment-specific raw actions, yielding improved cross-embodiment low-data adaptation and cross-task transfer. Taken together, these results suggest that action can be learned as a shared representation of controllable change across embodiments, providing an interface for more transferable and generalizable world models.
- Abstract(参考訳): エンボディドインテリジェンスにおけるアクションの中心的な役割にもかかわらず、視覚的遷移から伝達可能なアクション表現を学ぶことは根本的な課題であり、特に世界モデルが限られたデータの下でエンボディメント全体にわたって一般化しなければならない場合である。
我々は、アクションは単なる補助的条件づけ信号ではなく、エンボディメント特異的なアクティベーションから制御可能な変化を分離する表現的要因であると主張している。
そこで本研究では,視覚的遷移から具現化された動作表現を学習するための,共用逆フォワード動的フレームワークであるSCARを提案する。
事前訓練された生成バックボーン上に構築されたSCARは、逆ダイナミクスモデル(IDM)を使用して、潜時観測ペアから潜時動作を推論し、フォワードダイナミクスモデル(FDM)を用いて、それらに条件付けられた将来のダイナミクスを予測する。
一般的な視覚的ボトルネックよりも遅延空間の移動を可能とするため,任意の視覚的符号化を制限するために標準ガウスに対する遅延動作の後方を規則化し,また,エンボディメントや環境固有のニュアンス要因を抑えるために逆方向の不変性を導入する。
Procgen と Robotwin のデータセットの実験では、学習された統合潜在行動表現は、具体化固有の生のアクションよりも、世界モデリングのためのより強い条件付けインターフェースとして機能し、クロス・エボデーメントの低データ適応とクロス・タスク・トランスフォーメーションの改善が示されている。
これらの結果は、行動は実施形態全体にわたる制御可能な変化の共有表現として学習できることを示唆し、より伝達可能で一般化可能な世界モデルのためのインターフェースを提供する。
関連論文リスト
- HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer [55.982504915794514]
クロス・エボディメント・ポリシーは一般的に共有プライベート・アーキテクチャに依存している。
本報告では,MOTIFを効率よく数発のクロスボディーメントトランスファーに適用する。
我々はMOTIFが数発の転送シナリオにおいて強いベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-14T13:21:40Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。