論文の概要: Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
- arxiv url: http://arxiv.org/abs/2511.01502v1
- Date: Mon, 03 Nov 2025 12:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.251626
- Title: Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
- Title(参考訳): 関節深度と自我運動学習にともなう運動成分の識別処理
- Authors: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan,
- Abstract要約: 本研究では,各剛性流れの幾何学的規則性を利用して,運動成分の識別処理を行い,深度とエゴモーション推定の両立を図った。
当社のフレームワークであるDiMoDEは,複数の公開データセットと,新たに収集された多様な実世界のデータセット上で,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 41.65727603636666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
- Abstract(参考訳): 近年,2つの基本的な3次元知覚課題である深度と自我運動の教師なし学習が大きな進歩を遂げている。
しかしながら、ほとんどの方法は、エゴモーションを補助的なタスクとして扱い、すべての運動タイプを混合するか、監督において深度に依存しない回転運動を除外する。
このような設計は、強い幾何学的制約の組み入れを制限し、様々な条件下での信頼性と堅牢性を低下させる。
本研究では,各剛性流れの幾何学的規則性を利用して,運動成分の識別処理を行い,深度とエゴモーション推定の両立を図った。
連続したビデオフレームが与えられると、ネットワーク出力はまず、ソースとターゲットカメラの光学軸と撮像面を整列する。
これらのアライメントを通してフレーム間の光の流れを変換し、偏差を定量化し、各エゴモーション成分に個別に幾何的制約を課し、より標的とした洗練を可能にする。
これらのアライメントは、共同学習プロセスを、深度と各翻訳成分が相互に閉形式の幾何学的関係を通じて導出され、深度堅牢性を改善する補完的制約を導入することで、同軸および共平面形式に再構築する。
DiMoDEは、これらの設計を取り入れた一般的な深度とエゴモーションのジョイントラーニングフレームワークであり、複数の公開データセットと、新しく収集された多様な実世界のデータセット、特に困難な条件下で、最先端のパフォーマンスを達成する。
ソースコードは公開後、mias.group/DiMoDEで公開されます。
関連論文リスト
- HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - E-MoFlow: Learning Egomotion and Optical Flow from Event Data via Implicit Regularization [38.46024197872764]
オプティカルフローと6-DoFエゴモーションの推定は、通常独立して対処されてきた。
ニューロモルフィック・ビジョンでは、ロバストなデータアソシエーションが欠如しているため、この2つの問題を別々に解決することは不十分な課題である。
本研究では,暗黙の空間的時間的・幾何学的正則化を通じて,運動と光の流れを協調的に最適化する,教師なしのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-14T17:33:44Z) - Geometric Neural Distance Fields for Learning Human Motion Priors [51.99890740169883]
本研究では,より頑健で時間的に整合性があり,物理的に妥当な3次元運動回復を可能にする新しい3D生成人体運動について紹介する。
AMASSデータセットをトレーニングし、NRMFは複数の入力モードにまたがって著しく一般化する。
論文 参考訳(メタデータ) (2025-09-11T17:58:18Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4174356345935393]
単一画像から深度とOBを共同で推定する手法であるMoDOTを提案する。
MoDOTにはCASMという新しいモジュールが組み込まれている。これは、クロスアテンションとマルチスケールストリップの畳み込みを組み合わせて、中レベルのOB機能を活用する。
実験では、深度とOBを相互に推定し、MoDOTの設計の有効性を検証する。
論文 参考訳(メタデータ) (2025-05-27T14:15:19Z) - DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。
複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文 参考訳(メタデータ) (2024-05-27T08:55:17Z) - Self-Supervised Learning of Depth and Ego-Motion from Video by
Alternative Training and Geometric Constraints from 3D to 2D [5.481942307939029]
ラベルなし単眼ビデオからの深度とエゴモーションの自己教師付き学習は有望な結果を得た。
本稿では,補助的なタスクを伴わずに深層学習性能を向上させることを目的とする。
我々は、トレーニング中により小さな深さ値に重点を置くために、ログスケールの3次元構造整合性損失を設計する。
論文 参考訳(メタデータ) (2021-08-04T11:40:53Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。