論文の概要: Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2506.05546v1
- Date: Thu, 05 Jun 2025 19:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.21476
- Title: Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos
- Title(参考訳): 層状モーションフュージョン:エゴセントリックビデオの3Dへのリフティングモーションセグメンテーション
- Authors: Vadim Tschernezki, Diane Larlus, Andrea Vedaldi, Iro Laina,
- Abstract要約: 本研究では,2次元モデルから層状放射場への運動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。
テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。
このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
- 参考スコア(独自算出の注目度): 71.24593306228145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer vision is largely based on 2D techniques, with 3D vision still relegated to a relatively narrow subset of applications. However, by building on recent advances in 3D models such as neural radiance fields, some authors have shown that 3D techniques can at last improve outputs extracted from independent 2D views, by fusing them into 3D and denoising them. This is particularly helpful in egocentric videos, where the camera motion is significant, but only under the assumption that the scene itself is static. In fact, as shown in the recent analysis conducted by EPIC Fields, 3D techniques are ineffective when it comes to studying dynamic phenomena, and, in particular, when segmenting moving objects. In this paper, we look into this issue in more detail. First, we propose to improve dynamic segmentation in 3D by fusing motion segmentation predictions from a 2D-based model into layered radiance fields (Layered Motion Fusion). However, the high complexity of long, dynamic videos makes it challenging to capture the underlying geometric structure, and, as a result, hinders the fusion of motion cues into the (incomplete) scene geometry. We address this issue through test-time refinement, which helps the model to focus on specific frames, thereby reducing the data complexity. This results in a synergy between motion fusion and the refinement, and in turn leads to segmentation predictions of the 3D model that surpass the 2D baseline by a large margin. This demonstrates that 3D techniques can enhance 2D analysis even for dynamic phenomena in a challenging and realistic setting.
- Abstract(参考訳): コンピュータビジョンは主に2D技術に基づいており、3Dビジョンは依然として比較的狭いサブセットのアプリケーションに還元されている。
しかし, 神経放射場などの最近の3次元モデルの発展を基盤として, 独立な2次元ビューから抽出した出力を3次元に融合し, 分解することで, 最終的に3D技術が向上できることが, 著者らによって示されている。
これは、カメラの動きが重要であるエゴセントリックなビデオでは特に有用であるが、シーン自体が静的であるという前提の下でのみ有効である。
実際、EPIC Fieldsによる最近の分析で示されているように、3D技術は動的現象の研究、特に移動物体のセグメンテーションにおいて効果がない。
本稿では,この問題についてより詳しく考察する。
まず,2次元モデルから層状放射場(Layered Motion Fusion)への移動分割予測を融合させることにより,3次元の動的セグメンテーションを改善することを提案する。
しかし、長いダイナミックなビデオの複雑さは、基礎となる幾何学的構造を捉えるのを難しくし、その結果、モーションキューが(不完全な)シーン幾何学に融合するのを妨げている。
テスト時間の改善によってこの問題に対処し、モデルが特定のフレームに集中できるようにし、データの複雑さを軽減します。
これにより、運動融合と精細化の相乗効果が得られ、2次元ベースラインを超える3次元モデルのセグメンテーション予測が大きなマージンで達成される。
このことは、3D技術が挑戦的で現実的な環境での動的現象に対しても2次元解析を向上できることを証明している。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。
xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。
提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2025-03-19T09:20:35Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [42.581066866708085]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。