論文の概要: AirScape: An Aerial Generative World Model with Motion Controllability
- arxiv url: http://arxiv.org/abs/2507.08885v2
- Date: Fri, 10 Oct 2025 07:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.802291
- Title: AirScape: An Aerial Generative World Model with Motion Controllability
- Title(参考訳): AirScape:モーションコントロール機能を備えた空気発生型世界モデル
- Authors: Baining Zhao, Rongze Tang, Mingyuan Jia, Ziyou Wang, Fanghang Man, Xin Zhang, Yu Shang, Weichen Zhang, Wei Wu, Chen Gao, Xinlei Chen, Yong Li,
- Abstract要約: AirScapeは、6自由度飛行エージェント用に設計された世界初の世界モデルである。
現在の視覚的入力と動きの意図に基づいて将来の観測を予測する。
- 参考スコア(独自算出の注目度): 29.696659138543136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to enable agents to predict the outcomes of their own motion intentions in three-dimensional space has been a fundamental problem in embodied intelligence. To explore general spatial imagination capability, we present AirScape, the first world model designed for six-degree-of-freedom aerial agents. AirScape predicts future observation sequences based on current visual inputs and motion intentions. Specifically, we construct a dataset for aerial world model training and testing, which consists of 11k video-intention pairs. This dataset includes first-person-view videos capturing diverse drone actions across a wide range of scenarios, with over 1,000 hours spent annotating the corresponding motion intentions. Then we develop a two-phase schedule to train a foundation model--initially devoid of embodied spatial knowledge--into a world model that is controllable by motion intentions and adheres to physical spatio-temporal constraints. Experimental results demonstrate that AirScape significantly outperforms existing foundation models in 3D spatial imagination capabilities, especially with over a 50% improvement in metrics reflecting motion alignment. The project is available at: https://embodiedcity.github.io/AirScape/.
- Abstract(参考訳): エージェントが3次元空間における自身の動きの意図の結果を予測できるようにする方法は、インテリジェンスにおいて基本的な問題であった。
一般的な空間的想像力を探求するために,6自由度空域エージェント用に設計された世界初の世界モデルであるAirScapeを紹介する。
AirScapeは、現在の視覚入力と動きの意図に基づいて、将来の観測シーケンスを予測する。
具体的には、1万1千対のビデオ意図対からなる航空世界モデルトレーニングとテストのためのデータセットを構築した。
このデータセットには、さまざまなシナリオにわたる多様なドローンアクションを1対1でキャプチャするビデオが含まれている。
そこで我々は,まず最初に具体的空間知識を欠いた基礎モデルを,運動意図によって制御され,時空間的制約に順応する世界モデルに学習するための2段階のスケジュールを開発する。
実験結果から,AirScapeは3次元空間的想像力において既存の基礎モデルよりも著しく優れており,特に動きのアライメントを反映する指標が50%以上向上していることがわかった。
プロジェクトは以下の通りである。 https://embodiedcity.github.io/AirScape/。
関連論文リスト
- Learning Sequential Kinematic Models from Demonstrations for Multi-Jointed Articulated Objects [6.125464415922235]
マルチDoFオブジェクトに対する運動的制約と操作順序の両方をキャプチャする表現であるOKSMを紹介する。
Pokenetは、従来の方法と比較して、実世界のデータに対して、ジョイント軸と状態推定を20%以上改善する。
論文 参考訳(メタデータ) (2025-05-09T18:09:06Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes [14.924741503611749]
本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。
本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。
ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-27T04:03:55Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Autonomous Marker-less Rapid Aerial Grasping [5.892028494793913]
本稿では,自律的高速空中把握のための視覚ベースシステムを提案する。
検出対象の高密度点雲を生成し,幾何に基づく把握計画を行う。
飛行プラットフォームを用いた幾何学的把握技術の最初の利用例を示す。
論文 参考訳(メタデータ) (2022-11-23T16:25:49Z) - NavDreams: Towards Camera-Only RL Navigation Among Humans [35.57943738219839]
我々は,アタリゲームにおけるモデリングと学習の方針を示す世界モデルの概念が,カメラによるナビゲーション問題にも適用できるかどうかを考察する。
我々は、ロボットが目標を達成するために衝突することなく、静的で動く人間を通り過ぎなければならないシミュレーション環境を作成する。
現状の手法はナビゲーション問題の解決に成功でき、将来の画像系列の夢のような予測を生成することができる。
論文 参考訳(メタデータ) (2022-03-23T09:46:44Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。