論文の概要: Multimodal-Enhanced Objectness Learner for Corner Case Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2402.02026v2
- Date: Sat, 28 Sep 2024 08:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:23.261594
- Title: Multimodal-Enhanced Objectness Learner for Corner Case Detection in Autonomous Driving
- Title(参考訳): 自律運転におけるコーナケース検出のためのマルチモーダル強化オブジェクトネス学習装置
- Authors: Lixing Xiao, Ruixiao Shi, Xiaoyang Tang, Yi Zhou,
- Abstract要約: 本稿では,未知クラスと未知クラスとの差を減らし,マルチモーダル・エンハンスド・オブジェクトネスの概念を導入する方法を提案する。
コーナケース検出のためのMENOL(Multimodal-Enhanced Objectness Learner)アプローチは,トレーニングコストの低い新しい授業のリコールを大幅に改善する。
- 参考スコア(独自算出の注目度): 3.691985862357611
- License:
- Abstract: Previous works on object detection have achieved high accuracy in closed-set scenarios, but their performance in open-world scenarios is not satisfactory. One of the challenging open-world problems is corner case detection in autonomous driving. Existing detectors struggle with these cases, relying heavily on visual appearance and exhibiting poor generalization ability. In this paper, we propose a solution by reducing the discrepancy between known and unknown classes and introduce a multimodal-enhanced objectness notion learner. Leveraging both vision-centric and image-text modalities, our semi-supervised learning framework imparts objectness knowledge to the student model, enabling class-aware detection. Our approach, Multimodal-Enhanced Objectness Learner (MENOL) for Corner Case Detection, significantly improves recall for novel classes with lower training costs. By achieving a 76.6% mAR-corner and 79.8% mAR-agnostic on the CODA-val dataset with just 5100 labeled training images, MENOL outperforms the baseline ORE by 71.3% and 60.6%, respectively. The code will be available at https://github.com/tryhiseyyysum/MENOL.
- Abstract(参考訳): オブジェクト検出に関するこれまでの研究は、クローズドセットのシナリオでは高い精度を実現しているが、オープンワールドのシナリオでは、その性能は満足できない。
オープンワールドの課題の1つは、自動運転におけるコーナーケース検出である。
既存の検出器はこれらのケースに苦労し、視覚的外観に大きく依存し、一般化能力に乏しい。
本稿では,未知クラスと未知クラスとの差を減らし,マルチモーダル・エンハンスド・オブジェクトネスの概念学習者を提案する。
我々の半教師付き学習フレームワークは、視覚中心と画像テキストのモダリティの両方を活用することで、学生モデルに客観性知識を付与し、クラス認識検出を可能にする。
コーナケース検出のためのMENOL(Multimodal-Enhanced Objectness Learner)アプローチは,トレーニングコストの低い新しい授業のリコールを大幅に改善する。
CODA-valデータセットで76.6%のmARコーナと79.8%のmARを5100のラベル付きトレーニングイメージで達成することで、MENOLはベースラインOREを71.3%、60.6%で上回っている。
コードはhttps://github.com/tryhiseyyysum/MENOL.comから入手できる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - A Novel Driver Distraction Behavior Detection Method Based on
Self-supervised Learning with Masked Image Modeling [5.1680226874942985]
ドライバーの注意散らしは、毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。
ドライバの障害検出は、主に従来の畳み込みニューラルネットワーク(CNN)と教師あり学習法に依存している。
本稿では,運転者の気晴らし行動検出のためのマスク付き画像モデリングに基づく自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T10:53:32Z) - SalienDet: A Saliency-based Feature Enhancement Algorithm for Object
Detection for Autonomous Driving [160.57870373052577]
未知の物体を検出するために,サリエンデット法(SalienDet)を提案する。
我々のSaienDetは、オブジェクトの提案生成のための画像機能を強化するために、サリエンシに基づくアルゴリズムを利用している。
オープンワールド検出を実現するためのトレーニングサンプルセットにおいて、未知のオブジェクトをすべてのオブジェクトと区別するためのデータセットレザベリングアプローチを設計する。
論文 参考訳(メタデータ) (2023-05-11T16:19:44Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving [45.405303803618]
多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。
選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。
提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-16T14:21:30Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Learning Target Candidate Association to Keep Track of What Not to Track [100.80610986625693]
目標を追尾し続けるために、逸脱物を追跡することを提案します。
視覚的トラッキングにおいて, トラクタオブジェクト間の接地トルース対応を欠く問題に対処するために, 部分アノテーションと自己監督を組み合わせたトレーニング戦略を提案する。
我々のトラッカーは6つのベンチマークで新しい最先端のベンチマークを設定し、AUCスコアはLaSOTで67.2%、OxUvA長期データセットで+6.1%向上した。
論文 参考訳(メタデータ) (2021-03-30T17:58:02Z) - Learning task-agnostic representation via toddler-inspired learning [19.478820330574628]
我々は,幼児の行動を通じて,高度に意図的な学習システムからインスピレーションを得た。
幼児の学習手順に触発されて,タスクに依存しない視覚表現を学習し,記憶できる対話型エージェントを設計する。
実験の結果,これらの表現は様々な視覚タスクに拡張可能であることがわかった。
論文 参考訳(メタデータ) (2021-01-27T06:26:56Z) - Cascade Attentive Dropout for Weakly Supervised Object Detection [7.697578661762592]
弱教師付きオブジェクト検出(WSOD)は、画像レベルの監視のみでオブジェクトを分類し、特定することを目的としている。
多くのWSODアプローチでは、初期モデルとして複数のインスタンス学習を採用しており、最も識別可能なオブジェクト領域に収束しがちである。
本研究では,グローバルなコンテキストモジュールの改良とともに,部分支配問題を緩和するための新しいカスケード注意型ドロップアウト戦略を提案する。
論文 参考訳(メタデータ) (2020-11-20T08:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。