論文の概要: XVO: Generalized Visual Odometry via Cross-Modal Self-Training
- arxiv url: http://arxiv.org/abs/2309.16772v2
- Date: Mon, 2 Oct 2023 18:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:00:13.428669
- Title: XVO: Generalized Visual Odometry via Cross-Modal Self-Training
- Title(参考訳): xvo:クロスモーダル自己学習による汎用視覚オドメトリ
- Authors: Lei Lai and Zhongkai Shangguan and Jimuyang Zhang and Eshed Ohn-Bar
- Abstract要約: XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
- 参考スコア(独自算出の注目度): 11.70220331540621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose XVO, a semi-supervised learning method for training generalized
monocular Visual Odometry (VO) models with robust off-the-self operation across
diverse datasets and settings. In contrast to standard monocular VO approaches
which often study a known calibration within a single dataset, XVO efficiently
learns to recover relative pose with real-world scale from visual scene
semantics, i.e., without relying on any known camera parameters. We optimize
the motion estimation model via self-training from large amounts of
unconstrained and heterogeneous dash camera videos available on YouTube. Our
key contribution is twofold. First, we empirically demonstrate the benefits of
semi-supervised training for learning a general-purpose direct VO regression
network. Second, we demonstrate multi-modal supervision, including
segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate
generalized representations for the VO task. Specifically, we find audio
prediction task to significantly enhance the semi-supervised learning process
while alleviating noisy pseudo-labels, particularly in highly dynamic and
out-of-domain video data. Our proposed teacher network achieves
state-of-the-art performance on the commonly used KITTI benchmark despite no
multi-frame optimization or knowledge of camera parameters. Combined with the
proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge
transfer across diverse conditions on KITTI, nuScenes, and Argoverse without
fine-tuning.
- Abstract(参考訳): XVOは,多種多様なデータセットや設定にまたがる堅牢なオフザセルフ操作を備えた汎用モノクロビジュアルオドメトリー(VO)モデルを訓練するための,半教師付き学習手法である。
単一のデータセット内で既知のキャリブレーションを研究する標準的なモノクロVOアプローチとは対照的に、XVOは視覚シーンのセマンティクスから実際のスケールでの相対的なポーズを、既知のカメラパラメータに頼ることなく、効率的に学習する。
我々は,youtubeで利用可能な無拘束で不均質なダッシュカメラビデオからの自己学習により,モーション推定モデルを最適化する。
私たちの重要な貢献は2つです。
まず,汎用直接VO回帰ネットワーク学習における半教師あり学習の利点を実証的に示す。
次に,voタスクの汎用表現を容易にするために,セグメンテーション,フロー,深さ,音響補助予測タスクを含むマルチモーダル監督を行う。
具体的には、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化する音声予測タスクを、特に高ダイナミックで領域外のビデオデータにおいて発見する。
提案する教師ネットワークは,マルチフレーム最適化やカメラパラメータの知識がなくても,kittiベンチマークで最先端のパフォーマンスを実現する。
提案された半教師付きステップと組み合わせて、XVOはKITTI、nuScenes、Argoverseの様々な条件を微調整することなく、市販の知識伝達を実証する。
関連論文リスト
- Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。