論文の概要: Learning Latent Action World Models In The Wild
- arxiv url: http://arxiv.org/abs/2601.05230v1
- Date: Thu, 08 Jan 2026 18:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.344013
- Title: Learning Latent Action World Models In The Wild
- Title(参考訳): 野生で潜在アクションワールドモデルを学ぶ
- Authors: Quentin Garrido, Tushar Nagarajan, Basile Terver, Nicolas Ballas, Yann LeCun, Michael Rabbat,
- Abstract要約: In-the-wild video における潜在行動世界モデル学習の問題点について検討する。
連続的な、しかし制約のある、潜在的なアクションは、ワイルドなビデオからアクションの複雑さを捉えることができる。
ビデオ間の共通の具体化がないため、我々は主に宇宙空間で局所化される潜伏行動を学ぶことができる。
- 参考スコア(独自算出の注目度): 50.453458324163705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents capable of reasoning and planning in the real world require the ability of predicting the consequences of their actions. While world models possess this capability, they most often require action labels, that can be complex to obtain at scale. This motivates the learning of latent action models, that can learn an action space from videos alone. Our work addresses the problem of learning latent actions world models on in-the-wild videos, expanding the scope of existing works that focus on simple robotics simulations, video games, or manipulation data. While this allows us to capture richer actions, it also introduces challenges stemming from the video diversity, such as environmental noise, or the lack of a common embodiment across videos. To address some of the challenges, we discuss properties that actions should follow as well as relevant architectural choices and evaluations. We find that continuous, but constrained, latent actions are able to capture the complexity of actions from in-the-wild videos, something that the common vector quantization does not. We for example find that changes in the environment coming from agents, such as humans entering the room, can be transferred across videos. This highlights the capability of learning actions that are specific to in-the-wild videos. In the absence of a common embodiment across videos, we are mainly able to learn latent actions that become localized in space, relative to the camera. Nonetheless, we are able to train a controller that maps known actions to latent ones, allowing us to use latent actions as a universal interface and solve planning tasks with our world model with similar performance as action-conditioned baselines. Our analyses and experiments provide a step towards scaling latent action models to the real world.
- Abstract(参考訳): 現実世界で推論と計画を行うことができるエージェントは、行動の結果を予測する能力を必要とする。
世界モデルはこのような能力を持っているが、多くの場合はアクションラベルを必要とする。
これは、ビデオだけでアクション空間を学習できる潜在アクションモデルの学習を動機付けている。
我々の研究は、既存のロボットシミュレーション、ビデオゲーム、またはデータ操作に焦点を当てた既存の作業の範囲を広げ、現在進行中の動画で潜在アクションの世界モデルを学習する問題に対処する。
これにより、よりリッチなアクションをキャプチャできるが、環境騒音や、ビデオ間の共通の具体化の欠如など、ビデオの多様性から生じる課題ももたらされる。
いくつかの課題に対処するために、アクションが従うべき特性と関連するアーキテクチャの選択と評価について議論する。
連続的な、しかし制約のある、潜在的なアクションは、一般的なベクトル量子化ではできないような、ワイルドなビデオからアクションの複雑さを捉えることができる。
例えば、部屋に入る人間のようなエージェントから来る環境の変化は、ビデオ間で転送できる。
これは、Wild ビデオに特有の学習アクションの能力を強調します。
ビデオ間の共通の具体化がないため、主にカメラと比較して、空間内で局所化される潜伏行動を学ぶことができる。
それでも、既知のアクションを潜在アクションにマッピングするコントローラをトレーニングすることができ、潜在アクションをユニバーサルインターフェースとして使用し、アクション条件ベースラインと同じようなパフォーマンスで世界モデルによる計画タスクを解決できます。
我々の分析と実験は、潜在アクションモデルを現実世界に拡張するためのステップを提供する。
関連論文リスト
- AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Grounding Video Models to Actions through Goal Conditioned Exploration [29.050431676226115]
本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
論文 参考訳(メタデータ) (2024-11-11T18:43:44Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。