Fugu-MT 論文翻訳(概要): Splatter a Video: Video Gaussian Representation for Versatile Processing

論文の概要: Splatter a Video: Video Gaussian Representation for Versatile Processing

arxiv url: http://arxiv.org/abs/2406.13870v2
Date: Wed, 26 Jun 2024 10:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 18:06:11.889088
Title: Splatter a Video: Video Gaussian Representation for Versatile Processing
Title（参考訳）: スプラッター・ア・ビデオ(動画)
Authors: Yang-Tian Sun, Yi-Hua Huang, Lin Ma, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi,
Abstract要約: ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
参考スコア（独自算出の注目度）: 48.9887736125712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video representation is a long-standing problem that is crucial for various down-stream tasks, such as tracking,depth prediction,segmentation,view synthesis,and editing. However, current methods either struggle to model complex motions due to the absence of 3D structure or rely on implicit 3D representations that are ill-suited for manipulation tasks. To address these challenges, we introduce a novel explicit 3D representation-video Gaussian representation -- that embeds a video into 3D Gaussians. Our proposed representation models video appearance in a 3D canonical space using explicit Gaussians as proxies and associates each Gaussian with 3D motions for video motion. This approach offers a more intrinsic and explicit representation than layered atlas or volumetric pixel matrices. To obtain such a representation, we distill 2D priors, such as optical flow and depth, from foundation models to regularize learning in this ill-posed setting. Extensive applications demonstrate the versatility of our new video representation. It has been proven effective in numerous video processing tasks, including tracking, consistent video depth and feature refinement, motion and appearance editing, and stereoscopic video generation. Project page: https://sunyangtian.github.io/spatter_a_video_web/
Abstract（参考訳）: ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、様々な下流タスクにおいて重要な、長年にわたる問題である。しかし、現在の手法は、3D構造がないために複雑な動きをモデル化するのに苦労するか、操作に不適な暗黙の3D表現に依存している。これらの課題に対処するため、私たちは、ビデオを3Dガウスに埋め込む、新しい3D表現-ビデオガウス表現を導入しました。提案した表現は,3次元標準空間における映像の外観を,露骨なガウスをプロキシとして用いてモデル化し,各ガウスを映像運動のための3次元運動に関連付ける。このアプローチは層状アトラスや体積ピクセル行列よりも本質的で明示的な表現を提供する。このような表現を得るために、基礎モデルから光学的流れや深度などの2D先行情報を蒸留し、この不規則な環境下での学習を規則化する。広範にわたる応用は、我々の新しいビデオ表現の汎用性を示している。トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。プロジェクトページ:https://sunyangtian.github.io/spatter_a_video_web/

関連論文リスト

Tracking by Predicting 3-D Gaussians Over Time [36.74743544147803]
Video-GMAEは、画像列を時間とともに移動するガウススプラッターのセットにエンコードする。このアーキテクチャでネットワークを事前訓練すると、トラッキングが出現する。小型の微調整により、我々のモデルはKineeticsで34.6%、Kubricデータセットで13.1%向上した。
論文参考訳（メタデータ） (2025-12-27T06:16:54Z)
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-09-23T17:58:01Z)
S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文参考訳（メタデータ） (2025-08-11T14:50:03Z)
Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis [45.64047250474718]
ビデオ合成の進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオを作成することは難しい。本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。われわれのフレームワークは、動画フレームをシフトした視点から自動生成し、説得力のある3D効果を実現する。
論文参考訳（メタデータ） (2025-04-30T19:06:09Z)
Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images [5.754780404074765]
一つの画像から4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
論文参考訳（メタデータ） (2025-04-04T06:51:39Z)
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step [13.168559963356952]
VideoSceneは、ビデオ拡散モデルを蒸留して、ワンステップで3Dシーンを生成する。 VideoSceneは従来のビデオ拡散モデルよりも高速で優れた3Dシーン生成結果が得られる。
論文参考訳（メタデータ） (2025-04-02T17:59:21Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文参考訳（メタデータ） (2025-02-07T16:07:51Z)
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [54.559847511280545]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
論文参考訳（メタデータ） (2025-02-05T21:49:06Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-30T14:28:53Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。 58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文参考訳（メタデータ） (2024-06-04T17:57:37Z)
SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。既存の3次元超解像モデルを直接再利用できることを実証する。
論文参考訳（メタデータ） (2024-06-02T03:44:50Z)
LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文参考訳（メタデータ） (2024-04-13T11:07:53Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。 PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文参考訳（メタデータ） (2022-12-13T05:42:44Z)
Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文参考訳（メタデータ） (2020-08-26T12:24:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。