論文の概要: 4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.14301v1
- Date: Sun, 15 Mar 2026 09:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.732498
- Title: 4D Synchronized Fields: Motion-Language Gaussian Splatting for Temporal Scene Understanding
- Title(参考訳): 4Dシンクロナイズドフィールド:時間的シーン理解のためのモーションランゲージガウススプレイティング
- Authors: Mohamed Rayan Barhdadi, Samir Abdaljalil, Rasul Khanbayov, Erchin Serpedin, Hasan Kurban,
- Abstract要約: 現在の4D表現は、幾何学、運動、意味を分離する。
本研究では、4Dシンクロナイズド・フィールズを提案する。
HyperNeRFでは、4Dシンクロナイズド・フィールズが28.52dBのPSNRを達成している。
- 参考スコア(独自算出の注目度): 2.2872162489048966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current 4D representations decouple geometry, motion, and semantics: reconstruction methods discard interpretable motion structure; language-grounded methods attach semantics after motion is learned, blind to how objects move; and motion-aware methods encode dynamics as opaque per-point residuals without object-level organization. We propose 4D Synchronized Fields, a 4D Gaussian representation that learns object-factored motion in-loop during reconstruction and synchronizes language to the resulting kinematics through a per-object conditioned field. Each Gaussian trajectory is decomposed into shared object motion plus an implicit residual, and a kinematic-conditioned ridge map predicts temporal semantic variation, yielding a single representation in which reconstruction, motion, and semantics are structurally coupled and enabling open-vocabulary temporal queries that retrieve both objects and moments. On HyperNeRF, 4D Synchronized Fields achieves 28.52 dB mean PSNR, the highest among all language-grounded and motion-aware baselines, within 1.5 dB of reconstruction-only methods. On targeted temporal-state retrieval, the kinematic-conditioned field attains 0.884 mean accuracy, 0.815 mean vIoU, and 0.733 mean tIoU, surpassing 4D LangSplat (0.620, 0.433, and 0.439 respectively) and LangSplat (0.415, 0.304, and 0.262). Ablation confirms that kinematic conditioning is the primary driver, accounting for +0.45 tIoU over a static-embedding-only baseline. 4D Synchronized Fields is the only method that jointly exposes interpretable motion primitives and temporally grounded language fields from a single trained representation. Code will be released.
- Abstract(参考訳): 現在の4D表現は、幾何学、運動、意味を分離する:再構成法は解釈可能な運動構造を捨てる;言語で構築された手法は、運動が学習された後に意味を付加する; 物体の動きに盲目; 運動認識法は、オブジェクトレベルの組織を持たない不透明なポイント単位の残留物としてダイナミクスをエンコードする。
本研究では、4次元ガウス的表現である4次元シンクロナイズド・フィールズを提案する。
それぞれのガウス軌道は共有対象運動と暗黙の残差に分解され、キネマティック条件付きリッジマップは時間的意味変化を予測し、再構成、運動、意味が構造的に結合された単一の表現を生成し、オブジェクトとモーメントの両方を検索するオープン語彙の時間的クエリを可能にする。
HyperNeRFでは、4Dシンクロナイズド・フィールズ (Synchronized Fields) が28.52dB(PSNR)を達成している。
目標時相検索では、運動条件付きフィールドは0.884平均精度、0.815平均vIoU、0.733平均tIoUに達し、4D LangSplat(それぞれ0.620、0.433、0.439)、LangSplat(0.415、0.304、0.262)を超える。
Ablationは、キネマティックコンディショニングがメインドライバであることを確認し、静的埋め込みのみのベースライン上の+0.45 tIoUを考慮に入れている。
4Dシンクロナイズド・フィールズ (4D Synchronized Fields) は、単一の訓練された表現から解釈可能なモーションプリミティブと時間的に基底付けられた言語フィールドを共同で公開する唯一の方法である。
コードはリリースされる。
関連論文リスト
- End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction [74.31251139839047]
THOは、ビデオと3Dテンプレートから、人間の動きと調整された物体の動きを前方に予測する、エンドツーエンドの空間-時間変換器である。
実験により、THOは1つの4090 GPU上で31.5 FPSの推論速度で動作し、以前の最適化ベースの手法よりも600倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-03-15T15:21:36Z) - GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文 参考訳(メタデータ) (2026-02-25T11:36:33Z) - Flow4R: Unifying 4D Reconstruction and Tracking with Scene Flow [61.297800738187355]
Flow4Rは、Vision Transformerを用いて、画素当たりのプロパティセット3Dポイント位置、シーンフロー、ポーズウェイト、および2ビュー入力からの信頼度を最小限に予測する。
静的データセットと動的データセットを併用してトレーニングされたFlow4Rは、4D再構築とトラッキングタスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T06:58:08Z) - CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction [40.557276644446475]
本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。
我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
論文 参考訳(メタデータ) (2025-12-12T19:11:11Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [63.68181731564576]
Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - PARIS: Part-level Reconstruction and Motion Analysis for Articulated
Objects [17.191728053966873]
本研究は,調音対象に対する同時部分レベル再構成と動きパラメータ推定の課題に対処する。
パートレベルの暗黙的形状と外観モデルを学ぶ自己教師型エンドツーエンドアーキテクチャPARISを提案する。
提案手法は,オブジェクトカテゴリ全体にわたって最適化され,入力として3次元点雲が与えられるベースラインや先行作業よりも優れる。
論文 参考訳(メタデータ) (2023-08-14T18:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。