論文の概要: QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots
- arxiv url: http://arxiv.org/abs/2508.02512v1
- Date: Mon, 04 Aug 2025 15:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.399531
- Title: QuaDreamer: Controllable Panoramic Video Generation for Quadruped Robots
- Title(参考訳): QuaDreamer:四足歩行ロボットのための制御可能なパノラマビデオ生成
- Authors: Sheng Wu, Fei Teng, Hao Shi, Qi Jiang, Kai Luo, Kaiwei Wang, Kailun Yang,
- Abstract要約: QuaDreamerは四足歩行ロボット用に設計された最初のパノラマデータ生成エンジンである。
ジッタ信号制御下での高品質パノラマ映像生成を容易にするために,SOC(Scene-Object Controller)を提案する。
生成されたビデオシーケンスは、四足歩行ロボットのパノラマ視覚知覚モデルのトレーニングデータとして機能する。
- 参考スコア(独自算出の注目度): 21.423707978188432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic cameras, capturing comprehensive 360-degree environmental data, are suitable for quadruped robots in surrounding perception and interaction with complex environments. However, the scarcity of high-quality panoramic training data-caused by inherent kinematic constraints and complex sensor calibration challenges-fundamentally limits the development of robust perception systems tailored to these embodied platforms. To address this issue, we propose QuaDreamer-the first panoramic data generation engine specifically designed for quadruped robots. QuaDreamer focuses on mimicking the motion paradigm of quadruped robots to generate highly controllable, realistic panoramic videos, providing a data source for downstream tasks. Specifically, to effectively capture the unique vertical vibration characteristics exhibited during quadruped locomotion, we introduce Vertical Jitter Encoding (VJE). VJE extracts controllable vertical signals through frequency-domain feature filtering and provides high-quality prompts. To facilitate high-quality panoramic video generation under jitter signal control, we propose a Scene-Object Controller (SOC) that effectively manages object motion and boosts background jitter control through the attention mechanism. To address panoramic distortions in wide-FoV video generation, we propose the Panoramic Enhancer (PE)-a dual-stream architecture that synergizes frequency-texture refinement for local detail enhancement with spatial-structure correction for global geometric consistency. We further demonstrate that the generated video sequences can serve as training data for the quadruped robot's panoramic visual perception model, enhancing the performance of multi-object tracking in 360-degree scenes. The source code and model weights will be publicly available at https://github.com/losehu/QuaDreamer.
- Abstract(参考訳): パノラマカメラは、360度環境データを総合的に捉え、周囲の知覚と複雑な環境との相互作用において四足歩行ロボットに適している。
しかし、固有のキネマティック制約と複雑なセンサーキャリブレーションの問題により、高品質なパノラマトレーニングデータの不足は、これらの具体化されたプラットフォームに適した堅牢な知覚システムの開発を根本的に制限する。
この問題に対処するために,四足歩行ロボット用に設計された最初のパノラマデータ生成エンジンであるQuadreamerを提案する。
QuaDreamerは、四足歩行ロボットの動作パラダイムを模倣して、高度に制御可能なリアルなパノラマビデオを生成し、下流タスクのためのデータソースを提供する。
具体的には、四足歩行時に現れる独特の垂直振動特性を効果的に捉えるために、垂直ジッタ符号化(VJE)を導入する。
VJEは周波数領域の特徴フィルタリングを通じて制御可能な垂直信号を抽出し、高品質なプロンプトを提供する。
ジッタ信号制御下での高品質なパノラマ映像生成を容易にするため,物体の動きを効果的に管理し,アテンション機構を通じて背景ジッタ制御を促進するSOC(Scene-Object Controller)を提案する。
広FoVビデオ生成におけるパノラマ歪みに対処するため,大域的幾何整合性のための空間構造補正と局所的詳細化のための周波数テクスチャ改善を相乗化するためのパノラマエンハンサー(PE)アーキテクチャを提案する。
さらに、生成した映像シーケンスは、四足歩行ロボットのパノラマ視覚知覚モデルのトレーニングデータとして機能し、360度映像における多物体追跡の性能を向上させることを実証する。
ソースコードとモデルの重み付けはhttps://github.com/losehu/QuaDreamer.comで公開される。
関連論文リスト
- Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文 参考訳(メタデータ) (2025-06-30T04:33:34Z) - HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation [29.579493980120173]
HoloTimeは、ビデオ拡散モデルを統合して、単一のプロンプトまたは参照イメージからパノラマビデオを生成するフレームワークである。
360Worldデータセットは、下流の4Dシーン再構築タスクに適したパノラマビデオの包括的なコレクションである。
パノラマアニメーションは、パノラマ画像を高品質のパノラマビデオに変換する2段階のイメージ・ツー・ビデオ拡散モデルである。
パノラマ空間時間再構成は、空間時間深度推定法を用いて、生成されたパノラマ映像を4次元の点雲に変換する。
論文 参考訳(メタデータ) (2025-04-30T13:55:28Z) - Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文 参考訳(メタデータ) (2025-04-10T17:51:38Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic
Video with Applications for Virtual Reality [2.294014185517203]
円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。
パノラマ深度推定は、仮想現実、3Dモデリング、自律型ロボットナビゲーションといったアプリケーションにとって重要な技術である。
論文 参考訳(メタデータ) (2020-10-14T16:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。