Fugu-MT 論文翻訳(概要): 360Anything: Geometry-Free Lifting of Images and Videos to 360°

論文の概要: 360Anything: Geometry-Free Lifting of Images and Videos to 360°

arxiv url: http://arxiv.org/abs/2601.16192v1
Date: Thu, 22 Jan 2026 18:45:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-23 21:37:20.694335
Title: 360Anything: Geometry-Free Lifting of Images and Videos to 360°
Title（参考訳）: 360Anything: 画像とビデオの幾何学的自由なリフティングを360度に
Authors: Ziyi Wu, Daniel Watson, Andrea Tagliasacchi, David J. Fleet, Marcus A. Brubaker, Saurabh Saxena,
Abstract要約: 既存のアプローチは、パースペクティブと等方射影空間の間の明示的な幾何学的アライメントに依存している。事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。提案手法は,映像と映像の視点-360生成における最先端性能を実現する。
参考スコア（独自算出の注目度）: 51.50120114305155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lifting perspective images and videos to 360° panoramas enables immersive 3D world generation. Existing approaches often rely on explicit geometric alignment between the perspective and the equirectangular projection (ERP) space. Yet, this requires known camera metadata, obscuring the application to in-the-wild data where such calibration is typically absent or noisy. We propose 360Anything, a geometry-free framework built upon pre-trained diffusion transformers. By treating the perspective input and the panorama target simply as token sequences, 360Anything learns the perspective-to-equirectangular mapping in a purely data-driven way, eliminating the need for camera information. Our approach achieves state-of-the-art performance on both image and video perspective-to-360° generation, outperforming prior works that use ground-truth camera information. We also trace the root cause of the seam artifacts at ERP boundaries to zero-padding in the VAE encoder, and introduce Circular Latent Encoding to facilitate seamless generation. Finally, we show competitive results in zero-shot camera FoV and orientation estimation benchmarks, demonstrating 360Anything's deep geometric understanding and broader utility in computer vision tasks. Additional results are available at https://360anything.github.io/.
Abstract（参考訳）: 360°パノラマに視点画像や動画をリフティングすることで、没入型3Dワールドジェネレーションが可能になる。既存のアプローチはしばしば、視点と等方射影(ERP)空間の間の明示的な幾何学的アライメントに依存している。しかし、これは既知のカメラメタデータを必要としており、そのようなキャリブレーションが通常欠落している、あるいはノイズの多い、Wild内のデータへのアプリケーションを隠蔽する。事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。パースペクティブ入力とパノラマターゲットを単にトークンシーケンスとして扱うことで、360Anythingは純粋にデータ駆動の方法でパースペクティブ-等角写像を学習し、カメラ情報の必要性をなくす。提案手法は,映像と映像の両面から360°までの性能を向上する。また,ERP境界におけるシームアーティファクトの根本原因をVAEエンコーダのゼロパディングに遡り,円周潜時符号化を導入してシームレスな生成を容易にする。最後に、ゼロショットカメラFoVと向き推定ベンチマークで競合する結果を示し、コンピュータビジョンタスクにおける360Anythingの深い幾何学的理解とより広範なユーティリティを実証した。追加結果はhttps://360anything.github.io/.comで公開されている。

関連論文リスト

DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。 DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文参考訳（メタデータ） (2025-12-18T18:59:57Z)
TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video [7.009814571727852]
TAPVid-360は,ビデオシーケンスを横断するシーンポイントに対する3次元方向の予測を必要とする新しいタスクである。我々は360度動画を監督の源として利用し、真実の方向を計算しながら視野を狭くする。我々のベースラインはCoTracker v3に適応し、方向更新のためのポイント毎の回転を予測し、既存のTAPおよびTAPVid 3D法より優れている。
論文参考訳（メタデータ） (2025-11-26T22:13:26Z)
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文参考訳（メタデータ） (2025-04-10T17:51:38Z)
Splatter-360: Generalizable 360$^{\circ}$ Gaussian Splatting for Wide-baseline Panoramic Images [52.48351378615057]
textitSplatter-360は、ワイドベースラインパノラマ画像を扱うための、エンドツーエンドの汎用3DGSフレームワークである。パノラマ画像に固有の歪みを緩和する3D対応複投影エンコーダを提案する。これにより、堅牢な3D対応機能表現とリアルタイムレンダリングが可能になる。
論文参考訳（メタデータ） (2024-12-09T06:58:31Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文参考訳（メタデータ） (2024-04-10T10:46:59Z)
OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds [15.11376768491973]
単純で効率的な3D表現としてのカラーポイントクラウドは、様々な分野において多くの利点がある。本稿では,独立系360度カメラを用いて点雲をカラー化するための,新規で効率的なアルゴリズムであるOmniColorを提案する。
論文参考訳（メタデータ） (2024-04-06T17:41:36Z)
Distortion-Aware Self-Supervised 360{\deg} Depth Estimation from A Single Equirectangular Projection Image [35.943763515381214]
本稿では,オープン環境下での単一360度画像深度予測のための新しい手法を提案する。ひとつは、監視データセットの制限 - 現在利用可能なデータセットは、屋内シーンに限られている。もうひとつは、座標と歪みを持つ360deg画像に一般的に使用される等角射影フォーマット(ERP)による問題である。
論文参考訳（メタデータ） (2022-04-03T08:28:44Z)
360{\deg} Optical Flow using Tangent Images [18.146747748702513]
等角射影 (ERP) は、360度画像の保存、処理、視覚化において最も一般的なフォーマットである。タンジェント画像に基づく360度光フロー法を提案する。
論文参考訳（メタデータ） (2021-12-28T23:50:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。