論文の概要: Hierarchical Latent Action Model
- arxiv url: http://arxiv.org/abs/2603.05815v1
- Date: Fri, 06 Mar 2026 01:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.970676
- Title: Hierarchical Latent Action Model
- Title(参考訳): 階層的潜在行動モデル
- Authors: Hanjung Kim, Lerrel Pinto, Seon Joo Kim,
- Abstract要約: 本稿では,長期時間情報をモデル化して潜在能力を検出する階層的潜在行動モデルであるHiLAMを提案する。
このアーキテクチャは、ビデオの基本となる動的パターンを含む潜伏的なアクションシーケンスをハイレベルな潜伏スキルに集約する。
- 参考スコア(独自算出の注目度): 41.651794915420034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Action Models (LAMs) enable learning from actionless data for applications ranging from robotic control to interactive world models. However, existing LAMs typically focus on short-horizon frame transitions and capture low-level motion while overlooking longer-term temporal structure. In contrast, actionless videos often contain temporally extended and high-level skills. We present HiLAM, a hierarchical latent action model that discovers latent skills by modeling long-term temporal information. To capture these dependencies across long horizons, we utilize a pretrained LAM as a low-level extractor. This architecture aggregates latent action sequences, which contain the underlying dynamic patterns of the video, into high-level latent skills. Our experiments demonstrate that HiLAM improves over the baseline and exhibits robust dynamic skill discovery.
- Abstract(参考訳): ラテントアクションモデル(LAMs)は、ロボット制御からインタラクティブな世界モデルまで、さまざまなアプリケーションに対して、アクションレスデータから学習を可能にする。
しかし、既存のLAMは通常、短期水平フレーム遷移に焦点を合わせ、長期の時間構造を見下ろしながら低レベルの動きを捉えている。
対照的に、アクションレスビデオは、しばしば時間的に拡張され、ハイレベルなスキルを含んでいる。
本稿では,長期時間情報をモデル化して潜在能力を検出する階層的潜在行動モデルであるHiLAMを提案する。
長い地平線を横切るこれらの依存関係を捉えるために、事前訓練されたLAMを低レベル抽出器として利用する。
このアーキテクチャは、ビデオの基本となる動的パターンを含む潜伏的なアクションシーケンスをハイレベルな潜伏スキルに集約する。
実験により,HiLAMはベースラインよりも向上し,ロバストな動的スキル発見を示すことが示された。
関連論文リスト
- Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments [62.70468717776612]
単分子アクティブSLAM法Dream-SLAMを提案する。
部分的に観察された動的環境の時空間的イメージと意味論的に妥当な構造を夢見ている。
公開データセットと自己収集データセットの両方の実験は、Dream-SLAMがローカライズ精度、マッピング品質、探索効率において最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2026-02-25T14:48:49Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。
MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T11:55:16Z) - Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA [21.362682837521632]
Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:41:43Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。