Fugu-MT 論文翻訳(概要): AirScape: An Aerial Generative World Model with Motion Controllability

論文の概要: AirScape: An Aerial Generative World Model with Motion Controllability

arxiv url: http://arxiv.org/abs/2507.08885v1
Date: Thu, 10 Jul 2025 16:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 18:48:21.758152
Title: AirScape: An Aerial Generative World Model with Motion Controllability
Title（参考訳）: AirScape:モーションコントロール機能を備えた空気発生型世界モデル
Authors: Baining Zhao, Rongze Tang, Mingyuan Jia, Ziyou Wang, Fanghang Man, Xin Zhang, Yu Shang, Weichen Zhang, Chen Gao, Wei Wu, Xin Wang, Xinlei Chen, Yong Li,
Abstract要約: 今回紹介するAirScapeは、6自由度空域エージェント用に設計された世界初の世界モデルだ。 AirScapeは、現在の視覚入力と動きの意図に基づいて、将来の観測シーケンスを予測する。
参考スコア（独自算出の注目度）: 39.61988801846755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How to enable robots to predict the outcomes of their own motion intentions in three-dimensional space has been a fundamental problem in embodied intelligence. To explore more general spatial imagination capabilities, here we present AirScape, the first world model designed for six-degree-of-freedom aerial agents. AirScape predicts future observation sequences based on current visual inputs and motion intentions. Specifically, we construct an dataset for aerial world model training and testing, which consists of 11k video-intention pairs. This dataset includes first-person-view videos capturing diverse drone actions across a wide range of scenarios, with over 1,000 hours spent annotating the corresponding motion intentions. Then we develop a two-phase training schedule to train a foundation model -- initially devoid of embodied spatial knowledge -- into a world model that is controllable by motion intentions and adheres to physical spatio-temporal constraints.
Abstract（参考訳）: ロボットが3次元空間における自身の動きの意図を予測できるようにする方法は、インテリジェンスを具現化する上で基本的な問題であった。より一般的な空間的想像力を探求するために、ここでは6自由度空域エージェント用に設計された世界初の世界モデルであるAirScapeを紹介する。 AirScapeは、現在の視覚入力と動きの意図に基づいて、将来の観測シーケンスを予測する。具体的には、1万1千対のビデオ意図対からなる航空世界モデルトレーニングとテストのためのデータセットを構築した。このデータセットには、さまざまなシナリオにわたる多様なドローンアクションを1対1でキャプチャするビデオが含まれている。次に,まず空間知識の具体化を欠いた基礎モデルを,運動意図によって制御され,時空間的制約に固執する世界モデルに訓練するための2段階のトレーニングスケジュールを開発する。

関連論文リスト

Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文参考訳（メタデータ） (2026-01-21T18:59:32Z)
AirSim360: A Panoramic Simulation Platform within Drone View [63.238263531772446]
AirSim360は、空中から見た全方位データのためのシミュレーションプラットフォームである。 AirSim360は、ピクセルレベルの幾何学的、セマンティック、エンティティレベルの理解のためのレンダリング整列データとラベリングパラダイムの3つの重要な側面に焦点を当てている。既存のシミュレータとは異なり、我々の研究は、全方位で4Dの現実世界をシステマティックにモデル化した最初のものである。
論文参考訳（メタデータ） (2025-12-01T18:59:30Z)
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control [85.91101551600978]
モデルキャパシティ,データ,計算のスケールアップにより,自然かつ堅牢な体の動きを生成できる汎用的なヒューマノイドコントローラが得られることを示す。我々は、ネットワークサイズ、データセットボリューム、計算の3つの軸に沿ってスケーリングすることで、モーショントラッキングのための基礎モデルを構築します。本研究では,(1)動作追跡を下流タスク実行にブリッジし,自然かつインタラクティブな制御を可能にするリアルタイムユニバーサルキネマティックプランナ,(2)様々な動作入力インタフェースをサポートする統一トークン空間の2つのメカニズムにより,モデルの実用性を示す。
論文参考訳（メタデータ） (2025-11-11T04:37:40Z)
LookOut: Real-World Humanoid Egocentric Navigation [61.14016011125957]
本稿では,エゴセントリックな映像から将来の6Dヘッドポーズの列を予測するという課題を紹介する。この課題を解決するために,時間的に集約された3次元潜伏特徴を考慮に入れた枠組みを提案する。この分野のトレーニングデータが不足していることから,このアプローチを通じて収集されたデータセットを提示する。
論文参考訳（メタデータ） (2025-08-20T06:43:36Z)
Learning Sequential Kinematic Models from Demonstrations for Multi-Jointed Articulated Objects [6.125464415922235]
マルチDoFオブジェクトに対する運動的制約と操作順序の両方をキャプチャする表現であるOKSMを紹介する。 Pokenetは、従来の方法と比較して、実世界のデータに対して、ジョイント軸と状態推定を20%以上改善する。
論文参考訳（メタデータ） (2025-05-09T18:09:06Z)
Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。この生成は、環境の永続的な3Dマップに集約される。
論文参考訳（メタデータ） (2025-05-05T17:59:17Z)
TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes [14.924741503611749]
本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
論文参考訳（メタデータ） (2024-03-27T04:03:55Z)
Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文参考訳（メタデータ） (2024-02-29T18:57:37Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
Autonomous Marker-less Rapid Aerial Grasping [5.892028494793913]
本稿では,自律的高速空中把握のための視覚ベースシステムを提案する。検出対象の高密度点雲を生成し,幾何に基づく把握計画を行う。飛行プラットフォームを用いた幾何学的把握技術の最初の利用例を示す。
論文参考訳（メタデータ） (2022-11-23T16:25:49Z)
Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文参考訳（メタデータ） (2022-08-08T08:32:56Z)
NavDreams: Towards Camera-Only RL Navigation Among Humans [35.57943738219839]
我々は,アタリゲームにおけるモデリングと学習の方針を示す世界モデルの概念が,カメラによるナビゲーション問題にも適用できるかどうかを考察する。我々は、ロボットが目標を達成するために衝突することなく、静的で動く人間を通り過ぎなければならないシミュレーション環境を作成する。現状の手法はナビゲーション問題の解決に成功でき、将来の画像系列の夢のような予測を生成することができる。
論文参考訳（メタデータ） (2022-03-23T09:46:44Z)
Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文参考訳（メタデータ） (2021-04-12T23:14:41Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。