論文の概要: Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling
- arxiv url: http://arxiv.org/abs/2007.10983v1
- Date: Tue, 21 Jul 2020 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:04:25.804467
- Title: Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling
- Title(参考訳): 自己監督型長期モデリングによる単眼視覚計測の学習
- Authors: Yuliang Zou, Pan Ji, Quoc-Huy Tran, Jia-Bin Huang, Manmohan Chandraker
- Abstract要約: 単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
- 参考スコア(独自算出の注目度): 106.15327903038705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular visual odometry (VO) suffers severely from error accumulation
during frame-to-frame pose estimation. In this paper, we present a
self-supervised learning method for VO with special consideration for
consistency over longer sequences. To this end, we model the long-term
dependency in pose prediction using a pose network that features a two-layer
convolutional LSTM module. We train the networks with purely self-supervised
losses, including a cycle consistency loss that mimics the loop closure module
in geometric VO. Inspired by prior geometric systems, we allow the networks to
see beyond a small temporal window during training, through a novel a loss that
incorporates temporally distant (e.g., O(100)) frames. Given GPU memory
constraints, we propose a stage-wise training mechanism, where the first stage
operates in a local time window and the second stage refines the poses with a
"global" loss given the first stage features. We demonstrate competitive
results on several standard VO datasets, including KITTI and TUM RGB-D.
- Abstract(参考訳): 単眼視覚オドメトリ(vo)は、フレーム間ポーズ推定中にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
そこで我々は,2層畳み込みLSTMモジュールを特徴とするポーズネットワークを用いて,ポーズ予測における長期依存性をモデル化する。
我々は,gemetry voのループクロージャモジュールを模倣したサイクル一貫性損失を含む,純粋に自己教師付き損失を持つネットワークを訓練する。
事前の幾何系に触発されて、トレーニング中にネットワークが小さな時間窓を越えて見えるようにし、時間的に離れたフレーム(例えばo(100))を組み込んだ新しい損失を実現した。
そこで我々は,GPUメモリの制約を考慮し,第1ステージがローカル時間ウィンドウで動作し,第2ステージが第1ステージの特徴を考慮すれば,ポーズを"グローバル"な損失で洗練する,ステージワイズトレーニング機構を提案する。
我々は、KITTIやTUM RGB-Dなど、いくつかの標準VOデータセットの競合結果を示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry [0.0]
本稿では,フレーム間動き推定のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
RAUM-VOは、KITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上している。
論文 参考訳(メタデータ) (2022-03-14T15:03:24Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。