論文の概要: Self-supervised object detection from audio-visual correspondence
- arxiv url: http://arxiv.org/abs/2104.06401v1
- Date: Tue, 13 Apr 2021 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:25:53.277380
- Title: Self-supervised object detection from audio-visual correspondence
- Title(参考訳): 視聴覚対応からの自己教師付き物体検出
- Authors: Triantafyllos Afouras, Yuki M. Asano, Francois Fagan, Andrea Vedaldi,
Florian Metze
- Abstract要約: 我々は、監視なしで物体検出器を学習する問題に取り組む。
画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。
本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
- 参考スコア(独自算出の注目度): 101.46794879729453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of learning object detectors without supervision.
Differently from weakly-supervised object detection, we do not assume
image-level class labels. Instead, we extract a supervisory signal from
audio-visual data, using the audio component to "teach" the object detector.
While this problem is related to sound source localisation, it is considerably
harder because the detector must classify the objects by type, enumerate each
instance of the object, and do so even when the object is silent. We tackle
this problem by first designing a self-supervised framework with a contrastive
objective that jointly learns to classify and localise objects. Then, without
using any supervision, we simply use these self-supervised labels and boxes to
train an image-based object detector. With this, we outperform previous
unsupervised and weakly-supervised detectors for the task of object detection
and sound source localization. We also show that we can align this detector to
ground-truth classes with as little as one label per pseudo-class, and show how
our method can learn to detect generic objects that go beyond instruments, such
as airplanes and cats.
- Abstract(参考訳): 我々は、監視なしで物体検出器を学習する問題に取り組む。
弱教師付きオブジェクト検出とは異なり、画像レベルのクラスラベルは想定しない。
代わりに、オーディオ・ビジュアルデータから監視信号を抽出し、音声成分を用いて物体検出装置を「教える」。
この問題は音源の定位に関連しているが、検出器は対象をタイプ別に分類し、オブジェクトのインスタンスを列挙し、オブジェクトがサイレントである場合でもそれを行う必要があるため、かなり難しい。
まず,オブジェクトの分類とローカライズを共同で学ぶ対照目的の自己教師付きフレームワークを設計することで,この問題に取り組む。
そして、監視を一切使わずに、これらの自己教師付きラベルとボックスを使用して、イメージベースのオブジェクト検出器をトレーニングします。
これにより,物体検出と音源定位という課題において,従来の非教師なし・弱教師付き検出器よりも優れる。
我々はまた、この検出器を1つの擬似クラスごとに1つのラベルで地上の真実のクラスに合わせることができ、飛行機や猫のような計器を超える一般的な物体を検出する方法を学ぶことができることを示す。
関連論文リスト
- SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - SalienDet: A Saliency-based Feature Enhancement Algorithm for Object
Detection for Autonomous Driving [160.57870373052577]
未知の物体を検出するために,サリエンデット法(SalienDet)を提案する。
我々のSaienDetは、オブジェクトの提案生成のための画像機能を強化するために、サリエンシに基づくアルゴリズムを利用している。
オープンワールド検出を実現するためのトレーニングサンプルセットにおいて、未知のオブジェクトをすべてのオブジェクトと区別するためのデータセットレザベリングアプローチを設計する。
論文 参考訳(メタデータ) (2023-05-11T16:19:44Z) - Unsupervised Object Localization: Observing the Background to Discover
Objects [4.870509580034194]
本研究では,異なるアプローチを採り,その代わりに背景を探すことを提案する。
このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。
自己教師型パッチベース表現から抽出した粗い背景マスクを備えた1ドルconv1times1$のシンプルなモデルであるFOUNDを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:43:11Z) - Detect Only What You Specify : Object Detection with Linguistic Target [0.0]
本稿では,最近提案されたTransformer-based Detectorに基づくターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。
LTDはエンコーダ・デコーダアーキテクチャであり,条件付きデコーダにより,テキスト入力を言語文脈として,符号化された画像について推論することができる。
論文 参考訳(メタデータ) (2022-11-18T07:28:47Z) - The Sound of Bounding-Boxes [12.019518891110007]
本研究では,画像中の物体を同時に検出し,音源を分離する手法を提案する。
本手法は完全に教師なしだが,分離精度は両立可能である。
論文 参考訳(メタデータ) (2022-03-30T01:58:52Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - Context-Aware Transfer Attacks for Object Detection [51.65308857232767]
本稿では,オブジェクト検出のためのコンテキスト認識攻撃を新たに生成する手法を提案する。
オブジェクトとその相対的な位置と大きさの共起をコンテキスト情報として利用することにより、ターゲットの誤分類攻撃をうまく生成できることを示す。
論文 参考訳(メタデータ) (2021-12-06T18:26:39Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Bridging the Gap Between Object Detection and User Intent via
Query-Modulation [33.967176965675264]
クエリ変調検出器は、興味のあるラベルのオブジェクトを検出するのに優れた性能を示す。
クエリ変調検出と標準オブジェクト検出の両方を解決するために、同時にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-06-18T17:47:53Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。