Fugu-MT 論文翻訳(概要): 3D Video Loops from Asynchronous Input

論文の概要: 3D Video Loops from Asynchronous Input

arxiv url: http://arxiv.org/abs/2303.05312v1
Date: Thu, 9 Mar 2023 15:00:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 14:33:54.714566
Title: 3D Video Loops from Asynchronous Input
Title（参考訳）: 非同期入力からの3次元ビデオループ
Authors: Li Ma and Xiaoyu Li and Jing Liao and Pedro V. Sander
Abstract要約: ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。このフレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループビデオの生成とレンダリングを成功させる可能性が示された。
参考スコア（独自算出の注目度）: 22.52716577813998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Looping videos are short video clips that can be looped endlessly without visible seams or artifacts. They provide a very attractive way to capture the dynamism of natural scenes. Existing methods have been mostly limited to 2D representations. In this paper, we take a step forward and propose a practical solution that enables an immersive experience on dynamic 3D looping scenes. The key challenge is to consider the per-view looping conditions from asynchronous input while maintaining view consistency for the 3D representation. We propose a novel sparse 3D video representation, namely Multi-Tile Video (MTV), which not only provides a view-consistent prior, but also greatly reduces memory usage, making the optimization of a 4D volume tractable. Then, we introduce a two-stage pipeline to construct the 3D looping MTV from completely asynchronous multi-view videos with no time overlap. A novel looping loss based on video temporal retargeting algorithms is adopted during the optimization to loop the 3D scene. Experiments of our framework have shown promise in successfully generating and rendering photorealistic 3D looping videos in real time even on mobile devices. The code, dataset, and live demos are available in https://limacv.github.io/VideoLoop3D_web/.
Abstract（参考訳）: ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。自然の風景のダイナミズムを捉える非常に魅力的な方法を提供する。既存の方法は2D表現に限られている。本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。重要な課題は、3D表現のビュー一貫性を維持しながら、非同期入力からビュー毎のループ条件を検討することである。本稿では,MTV(Multi-Tile Video)という新しい3Dビデオ表現法を提案する。これは,ビューに一貫性があるだけでなく,メモリ使用量を大幅に削減し,4Dボリュームの最適化を可能にする。そして、完全に非同期なマルチビュービデオから3DループMTVを構築するための2段階パイプラインを導入する。 3Dシーンをループする最適化において,ビデオ時間的リターゲティングアルゴリズムに基づく新たなループ損失が採用された。本フレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループ映像を撮影・レンダリングできることが示されている。コード、データセット、ライブデモはhttps://limacv.github.io/VideoLoop3D_web/で公開されている。

関連論文リスト

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-23T17:58:01Z)
Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。 DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文参考訳（メタデータ） (2025-08-08T21:31:51Z)
WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文参考訳（メタデータ） (2025-06-02T15:41:31Z)
Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images [5.754780404074765]
一つの画像から4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
論文参考訳（メタデータ） (2025-04-04T06:51:39Z)
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step [13.168559963356952]
VideoSceneは、ビデオ拡散モデルを蒸留して、ワンステップで3Dシーンを生成する。 VideoSceneは従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果が得られる。
論文参考訳（メタデータ） (2025-04-02T17:59:21Z)
Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文参考訳（メタデータ） (2024-12-09T12:02:11Z)
Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文参考訳（メタデータ） (2024-10-14T17:59:59Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文参考訳（メタデータ） (2024-07-08T05:03:46Z)
Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文参考訳（メタデータ） (2024-06-19T22:20:03Z)
Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion [3.545941891218148]
本稿では,現在のアプローチのように時間とともに多視点一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立に生成するのに十分なのかを検討する。本稿では,2次元映像拡散を利用して3次元映像を生成するモデルVid3Dを提案する。
論文参考訳（メタデータ） (2024-06-17T04:09:04Z)
CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。 CAT3Dは1分で3Dシーン全体を作成できる。
論文参考訳（メタデータ） (2024-05-16T17:59:05Z)
LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文参考訳（メタデータ） (2024-04-13T11:07:53Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
Generating Continual Human Motion in Diverse 3D Scenes [51.90506920301473]
本研究では,3次元シーンにまたがる人間の動きを誘導するアニメーターを合成する手法を提案する。本研究では,連続的な動作合成問題を経路に沿って歩行し,キーポイントが指定した動作の内外への遷移に分解する。我々のモデルは、つかんだり、座ったり、傾いたりといった多様な行動の長いシーケンスを生成することができる。
論文参考訳（メタデータ） (2023-04-04T18:24:22Z)
Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文参考訳（メタデータ） (2021-08-30T17:55:28Z)
World-Consistent Video-to-Video Synthesis [35.617437747886484]
レンダリング中に過去のすべてのフレームを効率的に活用する新しいvid2vidフレームワークを提案する。これは、これまでレンダリングされた3D世界を、現在のフレームの物理的に基底化された推定に凝縮することで達成される。誘導画像に格納された情報を活用する新しいニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-16T17:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。