Fugu-MT 論文翻訳(概要): ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models

論文の概要: ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2605.10819v2
Date: Wed, 13 May 2026 09:16:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 17:13:58.86496
Title: ALAM: Algebraically Consistent Latent Action Model for Vision-Language-Action Models
Title（参考訳）: ALAM:視覚・言語・行動モデルのための代数的に一貫性のある潜時行動モデル
Authors: Zuojin Tang, Haoyun Liu, Xinyuan Chang, Changjie Wu, Dongjie Huo, Yandan Yang, Bin Liu, Zhejia Cai, Feng Xiong, Mu Xu, jiachen Luo, De Ma, Zhiheng Ma, Gang Pan,
Abstract要約: ALAM(Algebraic Latent Action Model)は、アクションフリービデオにおける時間的関係を構造的監視に変換する。 ALAMは、構成と逆整合性によって規則化されながら、再構成によって基礎付けられた潜伏遷移を学習する。下流VLA学習では、事前学習したエンコーダを凍結し、その潜伏遷移配列を補助的生成ターゲットとして使用する。
参考スコア（独自算出の注目度）: 31.2829405167292
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models remain constrained by the scarcity of action-labeled robot data, whereas action-free videos provide abundant evidence of how the physical world changes. Latent action models offer a promising way to extract such priors from videos, but reconstruction-trained latent codes are not necessarily suitable for policy generation: they may predict future observations while lacking the structure needed to be reused or generated coherently with robot actions. We introduce ALAM (Algebraic Latent Action Model), an Algebraically Consistent Latent Action Model that turns temporal relations in action-free video into structural supervision. Given frame triplets, ALAM learns latent transitions that are grounded by reconstruction while being regularized by composition and reversal consistency, encouraging a locally additive transition space. For downstream VLA learning, we freeze the pretrained encoder and use its latent transition sequences as auxiliary generative targets, co-generated with robot actions under a joint flow-matching objective. This couples structured latent transitions with flow-based policy generation, allowing the policy to exploit ALAM's locally consistent transition geometry without requiring latent-to-action decoding. Representation probes show that ALAM reduces additivity and reversibility errors by 25-85 times over unstructured latent-action baselines and improves long-horizon cumulative reconstruction. When transferred to VLA policies, ALAM raises the average success rate from 47.9% to 85.0% on MetaWorld MT50 and from 94.1% to 98.1% on LIBERO, with consistent gains on real-world manipulation tasks. Ablations further confirm that the strongest improvements arise from the synergy between algebraically structured latent transitions and joint flow matching.
Abstract（参考訳）: 視覚言語アクション(VLA)モデルは、アクションラベル付きロボットデータの不足によって制約され続けているが、アクションフリーのビデオは、物理的な世界がどのように変化するかを示す豊富な証拠を提供する。遅延アクションモデルは、ビデオからそのような先行情報を抽出する有望な方法を提供するが、再構成訓練された遅延コードは、必ずしもポリシー生成に適していない。本稿では,ALAM(Algebraic Latent Action Model)を紹介した。フレーム三重項が与えられたとき、ALAMは構成と逆整合によって規則化されながら再構成によって基礎付けられた潜時遷移を学習し、局所的な加法的遷移空間を奨励する。下流VLA学習では,事前学習したエンコーダを凍結し,その潜伏遷移シーケンスを補助的生成ターゲットとして用いる。このカップルはフローベースのポリシー生成で遅延遷移を構造化し、ポリシーは遅延からアクションへのデコーディングを必要とせずにALAMの局所的に一貫した遷移幾何を利用することができる。 Representation probesによると、ALAMは非構造化潜在作用ベースラインの25～85倍の添加率と可逆性誤差を低減し、長期累積再構成を改善する。 VLAに移行すると、ALAMはMetaWorld MT50の平均成功率は47.9%から85.0%に、LIBEROでは94.1%から98.1%に上昇し、実際の操作タスクでは一貫して上昇している。さらにアブレーションは、代数的に構造化された潜在遷移と関節フローマッチングの相乗効果から、最も強い改善が生じることを確認している。

関連論文リスト

LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文参考訳（メタデータ） (2026-05-11T03:51:22Z)
AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。 LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文参考訳（メタデータ） (2026-04-20T04:25:24Z)
Learning Additively Compositional Latent Actions for Embodied AI [29.26703392827422]
潜在行動学習は、視覚遷移から擬似行動ラベルを推論する。追加合成潜在行動モデル(AC-LAM)を導入する。 AC-LAMは、潜伏作用空間上の短い地平線上でのシーンワイズ付加合成構造を強制する。
論文参考訳（メタデータ） (2026-04-03T08:53:29Z)
CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics [25.518388341069492]
CLaDは,行動下での受容的状態と意味的状態の共進化をモデル化するフレームワークである。 CLaDは、EMAターゲットエンコーダと補助的な再構成損失による自己監督目標により、接地された潜伏監視を予測する。 LIBERO-LONGベンチマークでは、CLaDは94.7%の成功率を達成した。
論文参考訳（メタデータ） (2026-03-31T08:13:45Z)
Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文参考訳（メタデータ） (2026-03-04T11:38:12Z)
Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。 CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文参考訳（メタデータ） (2026-03-03T17:52:06Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文参考訳（メタデータ） (2025-12-19T19:07:53Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文参考訳（メタデータ） (2023-11-02T16:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。