論文の概要: Learning Additively Compositional Latent Actions for Embodied AI
- arxiv url: http://arxiv.org/abs/2604.03340v1
- Date: Fri, 03 Apr 2026 08:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.526326
- Title: Learning Additively Compositional Latent Actions for Embodied AI
- Title(参考訳): 身体的AIのための付加的な構成的潜時行動の学習
- Authors: Hangxing Wei, Xiaoyu Chen, Chuheng Zhang, Tim Pearce, Jianyu Chen, Alex Lamb, Li Zhao, Jiang Bian,
- Abstract要約: 潜在行動学習は、視覚遷移から擬似行動ラベルを推論する。
追加合成潜在行動モデル(AC-LAM)を導入する。
AC-LAMは、潜伏作用空間上の短い地平線上でのシーンワイズ付加合成構造を強制する。
- 参考スコア(独自算出の注目度): 29.26703392827422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent action learning infers pseudo-action labels from visual transitions, providing an approach to leverage internet-scale video for embodied AI. However, most methods learn latent actions without structural priors that encode the additive, compositional structure of physical motion. As a result, latents often entangle irrelevant scene details or information about future observations with true state changes and miscalibrate motion magnitude. We introduce Additively Compositional Latent Action Model (AC-LAM), which enforces scene-wise additive composition structure over short horizons on the latent action space. These AC constraints encourage simple algebraic structure in the latent action space~(identity, inverse, cycle consistency) and suppress information that does not compose additively. Empirically, AC-LAM learns more structured, motion-specific, and displacement-calibrated latent actions and provides stronger supervision for downstream policy learning, outperforming state-of-the-art LAMs across simulated and real-world tabletop tasks.
- Abstract(参考訳): 潜在アクション学習は、擬似アクションラベルを視覚遷移から推論し、インターネットスケールの動画をエンボディAIに活用するためのアプローチを提供する。
しかし、ほとんどの手法は、物理的運動の加法的、構成的構造を符号化する構造的先行を伴わない潜在動作を学習する。
結果として、潜伏者はしばしば無関係なシーンの詳細や将来の観測に関する情報を真の状態変化と誤校正運動の大きさで絡み合わせる。
本稿では,潜時行動空間上の短い地平線上でのシーンワイドな付加的構成構造を強制する付加的合成潜時行動モデル(AC-LAM)を提案する。
これらのAC制約は、潜在作用空間~(恒等性、逆、サイクル整合性)における単純な代数的構造を奨励し、加法的に構成しない情報を抑制する。
実証的に、AC-LAMはより構造化され、運動に特化し、偏りを補正した潜在行動を学び、下流政策学習のより強力な監督を提供し、シミュレートされた実世界のテーブルトップタスクにまたがる最先端のLAMよりも優れています。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Olaf-World: Orienting Latent Actions for Video World Modeling [100.96069208914957]
アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
論文 参考訳(メタデータ) (2026-02-10T18:58:41Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA [21.362682837521632]
Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:41:43Z) - CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning [13.411096520754507]
既存のビデオキャプション手法は、単にオブジェクトの振舞いの浅いあるいは単純化した表現を提供するだけである。
本稿では,オブジェクトの振る舞いの本質を包括的に把握する動的アクション意味認識グラフ変換器を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:16:47Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Cross-Video Contextual Knowledge Exploration and Exploitation for
Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。
私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。
我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文 参考訳(メタデータ) (2023-08-24T07:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。