論文の概要: LoLA: Long Horizon Latent Action Learning for General Robot Manipulation
- arxiv url: http://arxiv.org/abs/2512.20166v1
- Date: Tue, 23 Dec 2025 08:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.475802
- Title: LoLA: Long Horizon Latent Action Learning for General Robot Manipulation
- Title(参考訳): 汎用ロボットマニピュレーションのためのLong Horizon Latent Action Learning
- Authors: Xiaofan Wang, Xingyu Gao, Jianlong Fu, Zuolei Li, Dean Fortier, Galen Mullins, Andrey Kolobov, Baining Guo,
- Abstract要約: Long Horizon Latent Action Learning (LoLA)は、ロボット操作用に設計されたフレームワークである。
まず視覚言語モデルを用いて、歴史的シーケンスと多視点観測からリッチな文脈特徴を符号化する。
次に、視覚入力と言語コマンドを動作可能なロボットモーション空間に変換するステートアウェアラテント表現を導入する。
- 参考スコア(独自算出の注目度): 38.209790870296835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability of performing long-horizon, language-guided robotic manipulation tasks critically relies on leveraging historical information and generating coherent action sequences. However, such capabilities are often overlooked by existing Vision-Language-Action (VLA) models. To solve this challenge, we propose LoLA (Long Horizon Latent Action Learning), a framework designed for robot manipulation that integrates long-term multi-view observations and robot proprioception to enable multi-step reasoning and action generation. We first employ Vision-Language Models to encode rich contextual features from historical sequences and multi-view observations. We further introduces a key module, State-Aware Latent Re-representation, which transforms visual inputs and language commands into actionable robot motion space. Unlike existing VLA approaches that merely concatenate robot proprioception (e.g., joint angles) with VL embeddings, this module leverages such robot states to explicitly ground VL representations in physical scale through a learnable "embodiment-anchored" latent space. We trained LoLA on diverse robotic pre-training datasets and conducted extensive evaluations on simulation benchmarks (SIMPLER and LIBERO), as well as two real-world tasks on Franka and Bi-Manual Aloha robots. Results show that LoLA significantly outperforms prior state-of-the-art methods (e.g., pi0), particularly in long-horizon manipulation tasks.
- Abstract(参考訳): 長期にわたる言語誘導型ロボット操作タスクを実行する能力は、歴史的情報を活用し、一貫性のあるアクションシーケンスを生成することに依存している。
しかしながら、そのような機能は既存のビジョン・ランゲージ・アクション(VLA)モデルによって見落とされがちである。
この課題を解決するために,ロボット操作のためのフレームワークであるLoLA(Long Horizon Latent Action Learning)を提案する。
まず視覚言語モデルを用いて、歴史的シーケンスと多視点観測からリッチな文脈特徴を符号化する。
さらに、視覚入力と言語コマンドを動作可能なロボットモーション空間に変換するキーモジュールであるState-Aware Latent Re-representationを導入する。
既存のVLAアプローチは、単にVL埋め込みとロボットの受容(例えば関節角)を結合するだけであるが、このモジュールは、そのようなロボット状態を利用して、学習可能な「身体的アンコール」潜在空間を通して、物理的スケールでVL表現を明示的に基底化する。
シミュレーションベンチマーク(SIMPLERとLIBERO)と、FrankaとBi-Manual Alohaの2つの実世界のタスクについて、さまざまなロボット事前トレーニングデータセットでLoLAをトレーニングした。
結果から,LoLAは従来手法(例, pi0),特に長期操作タスクにおいて有意に優れていた。
関連論文リスト
- AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation [2.2357163812666716]
VLA(Vision-Language-Action Model)は,この課題に対して強力な性能を示す。
しかし、標準的なトランスフォーマーバックボーンの計算コストのため、リソース制約のある環境への展開は依然として困難である。
本稿では,マルチモーダルシーケンスを効率的に処理するために,奥行き状態空間モデルを用いた軽量VLAであるAnoleVLAを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:57:45Z) - ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。