Fugu-MT 論文翻訳(概要): 4-LEGS: 4D Language Embedded Gaussian Splatting

論文の概要: 4-LEGS: 4D Language Embedded Gaussian Splatting

arxiv url: http://arxiv.org/abs/2410.10719v2
Date: Tue, 15 Oct 2024 09:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 20:05:09.743009
Title: 4-LEGS: 4D Language Embedded Gaussian Splatting
Title（参考訳）: 4-LEGS: ガウススプラッティングを組み込んだ4D言語
Authors: Gal Fiebelman, Tamir Cohen, Ayellet Morgenstern, Peter Hedman, Hadar Averbuch-Elor,
Abstract要約: 3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
参考スコア（独自算出の注目度）: 12.699978393733309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.
Abstract（参考訳）: ニューラル表現の出現は、広範囲の3Dシーンをデジタルで見る手段に革命をもたらし、新しい視点から描画されたフォトリアリスティック画像の合成を可能にした。近年,これらの低レベル表現をシーン内に具現化された高レベル意味論的理解と結びつける手法が提案されている。これらの手法は2次元画像から3次元表現への豊かな意味理解を高め、高次元空間的特徴を3次元空間に蒸留する。私たちの研究では、言語と世界の動的モデリングを結びつけることに興味があります。時空間特徴を3次元ガウススプラッティングに基づく4次元表現へ持ち上げる方法について述べる。これにより、ユーザはテキストプロンプトからビデオ内のイベントを時空間でローカライズすることができる。我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。

関連論文リスト

ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。 Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文参考訳（メタデータ） (2025-10-24T00:52:33Z)
Advances in 4D Representation: Geometry, Motion, and Interaction [21.99533577912307]
コンピュータグラフィックスの高速進化サブフィールドである4次元生成と再構成について調査する。私たちは4D表現のユニークで独特な視点から、ドメインのカバレッジを構築します。
論文参考訳（メタデータ） (2025-10-22T05:22:20Z)
3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。 SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文参考訳（メタデータ） (2025-09-16T17:59:06Z)
LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。 4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文参考訳（メタデータ） (2025-05-18T06:18:57Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling [37.11454674584874]
ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
論文参考訳（メタデータ） (2024-12-16T09:37:52Z)
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文参考訳（メタデータ） (2024-11-07T18:07:31Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)
4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文参考訳（メタデータ） (2023-11-29T18:58:05Z)
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文参考訳（メタデータ） (2023-08-17T03:52:15Z)
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文参考訳（メタデータ） (2023-04-12T16:52:29Z)
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文参考訳（メタデータ） (2023-02-02T18:59:16Z)
Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文参考訳（メタデータ） (2020-12-17T17:54:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。