Fugu-MT 論文翻訳(概要): 4-LEGS: 4D Language Embedded Gaussian Splatting

論文の概要: 4-LEGS: 4D Language Embedded Gaussian Splatting

arxiv url: http://arxiv.org/abs/2410.10719v1
Date: Tue, 15 Oct 2024 09:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 20:05:09.745768
Title: 4-LEGS: 4D Language Embedded Gaussian Splatting
Title（参考訳）: 4-LEGS: ガウススプラッティングを組み込んだ4D言語
Authors: Gal Fiebelman, Tamir Cohen, Ayellet Morgenstern, Peter Hedman, Hadar Averbuch-Elor,
Abstract要約: 3次元ガウスアンティング % に基づく4次元表現への時空間的特徴の持ち上げ方法を示す。本稿では,3次元空間に隣接する特徴を相互作用させる機能-近視性アテンション機構を提案する。これにより、ユーザはテキストプロンプトからビデオ内のイベントをローカライズすることができる。
参考スコア（独自算出の注目度）: 12.699978393733309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. %, \gal{while introducing a feature-proximity attention mechanism that allows for neighboring features in 3D space to interact}. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.
Abstract（参考訳）: ニューラル表現の出現は、広範囲の3Dシーンをデジタルで見る手段に革命をもたらし、新しい視点から描画されたフォトリアリスティック画像の合成を可能にした。近年,これらの低レベル表現をシーン内に具現化された高レベル意味論的理解と結びつける手法が提案されている。これらの手法は2次元画像から3次元表現への豊かな意味理解を高め、高次元空間的特徴を3次元空間に蒸留する。私たちの研究では、言語と世界の動的モデリングを結びつけることに興味があります。時空間特徴を3次元ガウススプラッティングに基づく4次元表現へ持ち上げる方法について述べる。 %, \gal{ While は, 3次元空間における隣接した特徴の相互作用を可能にする特徴近接性アテンション機構を導入している。これにより、ユーザはテキストプロンプトからビデオ内のイベントを時空間でローカライズすることができる。我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。

関連論文リスト

LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。 4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文参考訳（メタデータ） (2025-05-18T06:18:57Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling [37.11454674584874]
ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
論文参考訳（メタデータ） (2024-12-16T09:37:52Z)
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文参考訳（メタデータ） (2024-11-07T18:07:31Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)
4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文参考訳（メタデータ） (2023-11-29T18:58:05Z)
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文参考訳（メタデータ） (2023-08-17T03:52:15Z)
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文参考訳（メタデータ） (2023-04-12T16:52:29Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文参考訳（メタデータ） (2020-12-17T17:54:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。