Fugu-MT 論文翻訳(概要): XVO: Generalized Visual Odometry via Cross-Modal Self-Training

論文の概要: XVO: Generalized Visual Odometry via Cross-Modal Self-Training

arxiv url: http://arxiv.org/abs/2309.16772v2
Date: Mon, 2 Oct 2023 18:01:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 07:00:13.428669
Title: XVO: Generalized Visual Odometry via Cross-Modal Self-Training
Title（参考訳）: xvo:クロスモーダル自己学習による汎用視覚オドメトリ
Authors: Lei Lai and Zhongkai Shangguan and Jimuyang Zhang and Eshed Ohn-Bar
Abstract要約: XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
参考スコア（独自算出の注目度）: 11.70220331540621
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning.
Abstract（参考訳）: XVOは,多種多様なデータセットや設定にまたがる堅牢なオフザセルフ操作を備えた汎用モノクロビジュアルオドメトリー(VO)モデルを訓練するための,半教師付き学習手法である。単一のデータセット内で既知のキャリブレーションを研究する標準的なモノクロVOアプローチとは対照的に、XVOは視覚シーンのセマンティクスから実際のスケールでの相対的なポーズを、既知のカメラパラメータに頼ることなく、効率的に学習する。我々は,youtubeで利用可能な無拘束で不均質なダッシュカメラビデオからの自己学習により,モーション推定モデルを最適化する。私たちの重要な貢献は2つです。まず,汎用直接VO回帰ネットワーク学習における半教師あり学習の利点を実証的に示す。次に,voタスクの汎用表現を容易にするために,セグメンテーション,フロー,深さ,音響補助予測タスクを含むマルチモーダル監督を行う。具体的には、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化する音声予測タスクを、特に高ダイナミックで領域外のビデオデータにおいて発見する。提案する教師ネットワークは,マルチフレーム最適化やカメラパラメータの知識がなくても,kittiベンチマークで最先端のパフォーマンスを実現する。提案された半教師付きステップと組み合わせて、XVOはKITTI、nuScenes、Argoverseの様々な条件を微調整することなく、市販の知識伝達を実証する。

関連論文リスト

ZeroVO: Visual Odometry with Minimal Assumptions [5.694070924765915]
我々は,様々なカメラや環境にまたがるゼロショットの一般化を実現する新しいビジュアル・オドメトリー(VO)アルゴリズムであるZeroVOを紹介する。我々は,推定深度およびカメラパラメータのノイズを処理できるキャリブレーションのない幾何対応ネットワーク構造を設計する。我々は、複雑な自律運転状況を分析し、従来の方法に対して30%以上の改善を示す。
論文参考訳（メタデータ） (2025-06-09T17:59:51Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文参考訳（メタデータ） (2025-03-28T07:32:51Z)
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文参考訳（メタデータ） (2025-03-06T14:52:34Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-06-16T17:24:20Z)
Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文参考訳（メタデータ） (2023-12-01T14:03:30Z)
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文参考訳（メタデータ） (2023-11-28T22:57:17Z)
Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文参考訳（メタデータ） (2023-06-12T05:49:23Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
X-Learner: Learning Cross Sources and Tasks for Universal Visual Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。 X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。 X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-03-16T17:23:26Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
One to Many: Adaptive Instrument Segmentation via Meta Learning and Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。 2つのデータセットで他の最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2021-03-24T05:02:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。