論文の概要: Self-Supervised Moving Vehicle Detection from Audio-Visual Cues
- arxiv url: http://arxiv.org/abs/2201.12771v1
- Date: Sun, 30 Jan 2022 09:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 07:27:53.161513
- Title: Self-Supervised Moving Vehicle Detection from Audio-Visual Cues
- Title(参考訳): 視聴覚手がかりからの自己教師付き移動車両検出
- Authors: Jannik Z\"urn, Wolfram Burgard
- Abstract要約: 本稿では,映像中の移動車両の検出に音声視覚的手がかりを活用する自己教師型アプローチを提案する。
提案手法では,画像と記録音声の対から画像中の車両を位置決めするのに対して,コントラスト学習を用いる。
そこで本研究では,教師が音声のみの検出モデルを監督するために,本モデルを利用できることを示す。
- 参考スコア(独自算出の注目度): 29.06503735149157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust detection of moving vehicles is a critical task for any autonomously
operating outdoor robot or self-driving vehicle. Most modern approaches for
solving this task rely on training image-based detectors using large-scale
vehicle detection datasets such as nuScenes or the Waymo Open Dataset.
Providing manual annotations is an expensive and laborious exercise that does
not scale well in practice. To tackle this problem, we propose a
self-supervised approach that leverages audio-visual cues to detect moving
vehicles in videos. Our approach employs contrastive learning for localizing
vehicles in images from corresponding pairs of images and recorded audio. In
extensive experiments carried out with a real-world dataset, we demonstrate
that our approach provides accurate detections of moving vehicles and does not
require manual annotations. We furthermore show that our model can be used as a
teacher to supervise an audio-only detection model. This student model is
invariant to illumination changes and thus effectively bridges the domain gap
inherent to models leveraging exclusively vision as the predominant modality.
- Abstract(参考訳): 移動中の車両のロバスト検出は、自律走行する屋外ロボットや自動運転車にとって重要なタスクである。
このタスクを解決するための現代的なアプローチは、nuScenesやWaymo Open Datasetといった大規模な車両検出データセットを使用したイメージベースの検出器のトレーニングに依存している。
手動アノテーションを提供することは、実際にうまくスケールしない、高価で手間のかかる作業です。
そこで本研究では,映像中の移動車両を視聴覚的手がかりで検出する自己教師付き手法を提案する。
本手法では,画像と録音音声から車両の局所化にコントラスト学習を用いる。
実世界のデータセットで実施した広範な実験で,本手法が移動車両の正確な検出を提供し,手動アノテーションを必要としないことを実証した。
さらに,本モデルは教師が音声のみの検出モデルを監督するために利用できることを示す。
この学生モデルは照明の変化に不変であり、それゆえ、独占的な視覚を支配的なモダリティとして活用するモデルに固有の領域ギャップを効果的に橋渡しする。
関連論文リスト
- Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。
トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。
従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文 参考訳(メタデータ) (2024-04-30T23:18:51Z) - Latent Object Characteristics Recognition with Visual to Haptic-Audio Cross-modal Transfer Learning [9.178588671620963]
この研究は、潜伏する観測不可能なオブジェクトの特性を認識することを目的としている。
視覚は一般的にロボットによる物体認識に使われるが、隠された物体を検出するには効果がない。
本稿では,視覚から触覚へのクロスモーダル・トランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:18:14Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Self-Supervised Pretraining on Satellite Imagery: a Case Study on
Label-Efficient Vehicle Detection [0.0]
超高解像度光衛星画像における物体検出のためのドメイン内自己教師型表現学習について検討する。
我々は、世界地図の大規模な土地利用分類データセットを用いて、Momentum Contrastフレームワークの拡張による表現の事前訓練を行う。
次に,Preligensプロプライエタリなデータに基づいて,車両の詳細な検出と分類を行う実世界のタスクにおいて,このモデルが持つ伝達可能性について検討する。
論文 参考訳(メタデータ) (2022-10-21T08:41:22Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。