論文の概要: Deformable Gaussian Occupancy: Decoupling Rigid and Nonrigid Motion with Factorized Distillation
- arxiv url: http://arxiv.org/abs/2605.28587v1
- Date: Wed, 27 May 2026 15:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.143622
- Title: Deformable Gaussian Occupancy: Decoupling Rigid and Nonrigid Motion with Factorized Distillation
- Title(参考訳): 変形性ガウス失活 : 分解蒸留による剛体運動と非剛体運動の解離
- Authors: Yang Gao, Wuyang Li, Po-Chien Luan, Alexandre Alahi,
- Abstract要約: DeGOは変形可能なガウスの占有機構であり、分解したガウスの変形と分解された4次元基礎モデル蒸留を統一する。
Occ3D-NuScenesベンチマーク実験により,本手法が弱い監督下での最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 81.44955493339835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding dynamic 3D environments is essential for safe autonomous driving, particularly when reasoning about human-centric, nonrigid agents. However, existing weakly supervised occupancy prediction frameworks predominantly assume rigid-body motion and rely on simple frame-to-frame offsets, limiting their ability to capture fine-grained deformations and maintain temporal coherence. To address this issue, we propose DeGO, a deformable Gaussian occupancy framework that unifies decoupled Gaussian deformation with factorized 4D foundation-model distillation. DeGO disentangles rigid and nonrigid motion, enabling each Gaussian primitive to evolve through both deformation and offset-based updates. In parallel, a factorized 4D distillation strategy transfers cross-camera and cross-frame knowledge from the VGGT foundation model, producing foundation-aligned features that enhance temporal consistency. Experiments on the Occ3D-NuScenes benchmark demonstrate that our method achieves state-of-the-art performance under weak supervision, delivering 13.5% gains on human-centric instances and 10.9% overall improvements. These results highlight the effectiveness of deformation-aware and foundation-guided occupancy modeling for dynamic scene understanding. The code is publicly available: https://github.com/vita-epfl/DeGO
- Abstract(参考訳): ダイナミックな3D環境を理解することは、特に人間中心の非厳密なエージェントを推論する場合、安全な自動運転に不可欠である。
しかし、既存の弱教師付き占有予測フレームワークは、主に剛体運動を仮定し、単純なフレーム間オフセットに依存し、きめ細かい変形を捕捉し、時間的コヒーレンスを維持する能力を制限する。
この問題に対処するために,分解されたガウス変形と分解された4次元基礎モデル蒸留を一体化する変形可能なガウス占有フレームワークであるDeGOを提案する。
DeGOは剛体運動と非剛体運動を分離し、各ガウス原始体は変形とオフセットベースの更新の両方を通じて進化することができる。
並行して、分解された4D蒸留戦略は、VGGTファンデーションモデルから、クロスカメラとクロスフレームの知識を伝達し、時間的整合性を高める基礎的な特徴を生み出す。
Occ3D-NuScenesベンチマークの実験は、我々の手法が弱い監督下で最先端のパフォーマンスを実現し、人間中心のインスタンスが13.5%、全体的な改善が10.9%に達することを示した。
これらの結果は,動的シーン理解のための変形認識および基礎誘導占有モデルの有効性を浮き彫りにした。
コードは https://github.com/vita-epfl/DeGO で公開されている。
関連論文リスト
- Stabilizing Streaming Video Geometry via Dynamic Feature Normalization [45.91399406203578]
Dynamic Feature Normalization (DyFN) は、時間とともに安定な幾何を維持するために特徴統計を変調する因果リカレントモジュールである。
DyFNは最先端の時間安定性を実現し、従来のストリーミング手法よりも最大14%改善し、さらにはより重い非因果的ビデオベースラインを上回ります。
論文 参考訳(メタデータ) (2026-05-25T00:13:15Z) - Robust 4D Visual Geometry Transformer with Uncertainty-Aware Priors [38.939519059502025]
再構成プロセスの異なる段階にわたる不確実性をモデル化し,動的および静的なコンポーネントをアンタングル化するフレームワークを提案する。
提案手法は平均精度の誤差を13.43%削減し,セグメント化F尺度を10.49%改善する。
我々のフレームワークはフィードフォワード推論の効率を維持しており、タスク固有の微調整やシーンごとの最適化は不要である。
論文 参考訳(メタデータ) (2026-04-10T14:36:50Z) - Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control [31.523644271297616]
一般化可能なロボット操作における重要なボトルネックは、現在の視覚的バックボーンと閉ループ制御の物理的要求との間の構造的ミスマッチである。
我々は,マニフォールド蒸留による推論プロセスから幾何学的情報ソースを分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
論文 参考訳(メタデータ) (2026-02-12T13:30:24Z) - From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting [26.57713792657793]
制御密度と動きの複雑さを一致させる動き適応フレームワークを提案する。
既存の最先端手法に比べて,復元品質と効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-03T05:33:58Z) - Articulated Kinematics Distillation from Video Diffusion Models [64.18346374534352]
Articulated Kinematics Distillation (AKD)は、高忠実度キャラクターアニメーションを生成するためのフレームワークである。
AKDはスケルトンに基づく3Dアセットの表現を使用しており、自由度(DoF)を大幅に削減している。
AKDは構造的整合性を維持しながら複雑な関節運動を蒸留する。
論文 参考訳(メタデータ) (2025-04-01T21:37:57Z) - HandSplat: Embedding-Driven Gaussian Splatting for High-Fidelity Hand Rendering [15.750852107797538]
既存の3次元ガウススプラッティング法は、過度に単純化された非剛体運動モデルを持つ剛体骨格運動に依存している。
HandSplatは、ハンドレンダリングの忠実さと安定性を両立させる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-03-18T21:09:04Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。