論文の概要: 360Anything: Geometry-Free Lifting of Images and Videos to 360°
- arxiv url: http://arxiv.org/abs/2601.16192v1
- Date: Thu, 22 Jan 2026 18:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.694335
- Title: 360Anything: Geometry-Free Lifting of Images and Videos to 360°
- Title(参考訳): 360Anything: 画像とビデオの幾何学的自由なリフティングを360度に
- Authors: Ziyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena,
- Abstract要約: 既存のアプローチは、パースペクティブと等方射影空間の間の明示的な幾何学的アライメントに依存している。
事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。
提案手法は,映像と映像の視点-360生成における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 51.50120114305155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.
- Abstract(参考訳): 360°パノラマに視点画像や動画をリフティングすることで、没入型3Dワールドジェネレーションが可能になる。
既存のアプローチはしばしば、視点と等方射影(ERP)空間の間の明示的な幾何学的アライメントに依存している。
しかし、これは既知のカメラメタデータを必要としており、そのようなキャリブレーションが通常欠落している、あるいはノイズの多い、Wild内のデータへのアプリケーションを隠蔽する。
事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。
パースペクティブ入力とパノラマターゲットを単にトークンシーケンスとして扱うことで、360Anythingは純粋にデータ駆動の方法でパースペクティブ-等角写像を学習し、カメラ情報の必要性をなくす。
提案手法は,映像と映像の両面から360°までの性能を向上する。
また,ERP境界におけるシームアーティファクトの根本原因をVAEエンコーダのゼロパディングに遡り,円周潜時符号化を導入してシームレスな生成を容易にする。
最後に、ゼロショットカメラFoVと向き推定ベンチマークで競合する結果を示し、コンピュータビジョンタスクにおける360Anythingの深い幾何学的理解とより広範なユーティリティを実証した。
追加結果はhttps://360anything.github.io/.comで公開されている。
関連論文リスト
- DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文 参考訳(メタデータ) (2025-04-10T17:51:38Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds [15.11376768491973]
単純で効率的な3D表現としてのカラーポイントクラウドは、様々な分野において多くの利点がある。
本稿では,独立系360度カメラを用いて点雲をカラー化するための,新規で効率的なアルゴリズムであるOmniColorを提案する。
論文 参考訳(メタデータ) (2024-04-06T17:41:36Z) - Distortion-Aware Self-Supervised 360{\deg} Depth Estimation from A
Single Equirectangular Projection Image [35.943763515381214]
本稿では,オープン環境下での単一360度画像深度予測のための新しい手法を提案する。
ひとつは、監視データセットの制限 - 現在利用可能なデータセットは、屋内シーンに限られている。
もうひとつは、座標と歪みを持つ360deg画像に一般的に使用される等角射影フォーマット(ERP)による問題である。
論文 参考訳(メタデータ) (2022-04-03T08:28:44Z) - 360{\deg} Optical Flow using Tangent Images [18.146747748702513]
等角射影 (ERP) は、360度画像の保存、処理、視覚化において最も一般的なフォーマットである。
タンジェント画像に基づく360度光フロー法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。