論文の概要: MUT3R: Motion-aware Updating Transformer for Dynamic 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.03939v1
- Date: Wed, 03 Dec 2025 16:36:53 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:00:21.175608
- Title: MUT3R: Motion-aware Updating Transformer for Dynamic 3D Reconstruction
- Title(参考訳): MUT3R:動的3次元再構成のための運動認識更新変圧器
- Authors: Guole Shen, Tianchen Deng, Xingrui Qin, Nailin Wang, Jianyu Wang, Yanbo Wang, Yongtao Chen, Hesheng Wang, Jingchuan Wang,
- Abstract要約: MUT3Rは,注意由来の動作キューを適用して,推論中の動的コンテンツを抑制する学習自由フレームワークである。
我々はモデルを再訓練したり微調整したりせず、事前訓練されたトランスフォーマーが自身の動きの手がかりを診断し、修正する。
- 参考スコア(独自算出の注目度): 24.474529522394405
- License:
- Abstract: Recent stateful recurrent neural networks have achieved remarkable progress on static 3D reconstruction but remain vulnerable to motion-induced artifacts, where non-rigid regions corrupt attention propagation between the spatial memory and image feature. By analyzing the internal behaviors of the state and image token updating mechanism, we find that aggregating self-attention maps across layers reveals a consistent pattern: dynamic regions are naturally down-weighted, exposing an implicit motion cue that the pretrained transformer already encodes but never explicitly uses. Motivated by this observation, we introduce MUT3R, a training-free framework that applies the attention-derived motion cue to suppress dynamic content in the early layers of the transformer during inference. Our attention-level gating module suppresses the influence of dynamic regions before their artifacts propagate through the feature hierarchy. Notably, we do not retrain or fine-tune the model; we let the pretrained transformer diagnose its own motion cues and correct itself. This early regulation stabilizes geometric reasoning in streaming scenarios and leads to improvements in temporal consistency and camera pose robustness across multiple dynamic benchmarks, offering a simple and training-free pathway toward motion-aware streaming reconstruction.
- Abstract(参考訳): 最近のステートフルリカレントニューラルネットワークは、静的な3次元再構成において顕著な進歩を遂げているが、動きによって引き起こされるアーティファクトに弱いままであり、非剛体領域は空間記憶と画像特徴の間の注意伝播を損なう。
状態と画像トークンの更新機構の内部挙動を解析することにより、層をまたいだ自己注意マップの集約が一貫したパターンを明らかにする: 動的領域は自然に太りすぎ、事前訓練されたトランスフォーマーが既にエンコードしているが、明示的に使用しない暗黙の動作キューが露呈する。
この観察に動機づけられたMUT3Rは、トレーニング不要なフレームワークであり、注意由来の動作キューを適用して、推論中にトランスフォーマーの初期層における動的内容を抑制する。
注目レベルゲーティングモジュールは,特徴階層を伝播する前に動的領域の影響を抑える。
特に、モデルの再訓練や微調整は行わず、事前訓練されたトランスフォーマーが自身の動きの手がかりを診断して修正する。
この早期規制は、ストリーミングシナリオにおける幾何学的推論を安定化させ、時間的一貫性の改善をもたらし、カメラは複数の動的ベンチマークで堅牢性を示し、モーションアウェアなストリーミング再構成へのシンプルでトレーニングのない経路を提供する。
関連論文リスト
- 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting [26.57713792657793]
制御密度と動きの複雑さを一致させる動き適応フレームワークを提案する。
既存の最先端手法に比べて,復元品質と効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-03T05:33:58Z) - Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.784542628690794]
画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。
本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。
我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文 参考訳(メタデータ) (2025-08-03T16:44:24Z) - HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene [24.789092424634536]
本稿では,スパースアンカー駆動変形による構造的・一貫した動的モデリングを実現する統合フレームワークHAIF-GSを提案する。
HAIF-GSは, レンダリング品質, 時間的コヒーレンス, 再構成効率において, 従来の動的3DGS法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-11T08:45:08Z) - Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [86.099855111676]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。
この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。
私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文 参考訳(メタデータ) (2025-04-20T07:29:42Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。