論文の概要: UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment
- arxiv url: http://arxiv.org/abs/2506.07013v1
- Date: Sun, 08 Jun 2025 06:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.628079
- Title: UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment
- Title(参考訳): UNO: プラットフォームに依存しないデプロイのための統一された自己監督型モノクロオドメトリー
- Authors: Wentao Zhao, Yihe Niu, Yanbo Wang, Tianchen Deng, Shenghai Yuan, Zhenli Wang, Rui Guo, Jingchuan Wang,
- Abstract要約: 多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。
われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。
提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
- 参考スコア(独自算出の注目度): 22.92093036869778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents UNO, a unified monocular visual odometry framework that enables robust and adaptable pose estimation across diverse environments, platforms, and motion patterns. Unlike traditional methods that rely on deployment-specific tuning or predefined motion priors, our approach generalizes effectively across a wide range of real-world scenarios, including autonomous vehicles, aerial drones, mobile robots, and handheld devices. To this end, we introduce a Mixture-of-Experts strategy for local state estimation, with several specialized decoders that each handle a distinct class of ego-motion patterns. Moreover, we introduce a fully differentiable Gumbel-Softmax module that constructs a robust inter-frame correlation graph, selects the optimal expert decoder, and prunes erroneous estimates. These cues are then fed into a unified back-end that combines pre-trained, scale-independent depth priors with a lightweight bundling adjustment to enforce geometric consistency. We extensively evaluate our method on three major benchmark datasets: KITTI (outdoor/autonomous driving), EuRoC-MAV (indoor/aerial drones), and TUM-RGBD (indoor/handheld), demonstrating state-of-the-art performance.
- Abstract(参考訳): この研究は、多様な環境、プラットフォーム、動きパターンにまたがる堅牢で適応可能なポーズ推定を可能にする統一された単眼視覚計測フレームワークであるUNOを提示する。
デプロイメント固有のチューニングや事前定義された動作先に依存する従来の方法とは異なり、当社のアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、幅広い現実のシナリオを効果的に一般化します。
そこで本稿では,局所状態推定のためのMixture-of-Experts戦略を提案する。
さらに、フレーム間相関グラフを構築し、最適な専門家デコーダを選択し、誤推定を行う、完全に微分可能なGumbel-Softmaxモジュールを導入する。
これらのキューは、事前訓練されたスケールに依存しない深度と、幾何学的整合性を強制するための軽量なバンドル調整を組み合わせた統一されたバックエンドに供給される。
我々は、KITTI(アウトドア/自律走行)、EuRoC-MAV(インドア/エアリアルドローン)、TUM-RGBD(インドア/ハンドヘルド)の3つの主要なベンチマークデータセットに対して、我々の手法を広範囲に評価した。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics [14.694200929205975]
本稿では,状態空間動的システムモデリングに基づく軌道予測の新しい手法を提案する。
動的システムにおける状態推定の精度を高めるために,制御変数に対する新しいモデリング手法を提案する。
提案手法は,グラフニューラルネットワークと状態空間モデルを統合し,マルチエージェント相互作用の複雑さを効果的に捉える。
論文 参考訳(メタデータ) (2024-08-08T08:33:02Z) - GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera
Parameters via Ground Plane Embedding [8.289857214449372]
GenDepthは任意の車載カメラの設定に対してメートル法深度推定を行うことができる新しいモデルである。
地平面深度としてのカメラパラメータの新たな埋め込みを提案し,これらの埋め込みを対角領域アライメントと統合するアーキテクチャを提案する。
我々はGenDepthをいくつかの自律走行データセットで検証し、異なる車載カメラシステムに対する最先端の一般化能力を実証した。
論文 参考訳(メタデータ) (2023-12-10T22:28:34Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。