論文の概要: 4-LEGS: 4D Language Embedded Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2410.10719v2
- Date: Tue, 15 Oct 2024 09:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:05:09.743009
- Title: 4-LEGS: 4D Language Embedded Gaussian Splatting
- Title(参考訳): 4-LEGS: ガウススプラッティングを組み込んだ4D言語
- Authors: Gal Fiebelman, Tamir Cohen, Ayellet Morgenstern, Peter Hedman, Hadar Averbuch-Elor,
- Abstract要約: 3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
- 参考スコア(独自算出の注目度): 12.699978393733309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.
- Abstract(参考訳): ニューラル表現の出現は、広範囲の3Dシーンをデジタルで見る手段に革命をもたらし、新しい視点から描画されたフォトリアリスティック画像の合成を可能にした。
近年,これらの低レベル表現をシーン内に具現化された高レベル意味論的理解と結びつける手法が提案されている。
これらの手法は2次元画像から3次元表現への豊かな意味理解を高め、高次元空間的特徴を3次元空間に蒸留する。
私たちの研究では、言語と世界の動的モデリングを結びつけることに興味があります。
時空間特徴を3次元ガウススプラッティングに基づく4次元表現へ持ち上げる方法について述べる。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時空間でローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
関連論文リスト
- DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。