論文の概要: Improving Object Detection via Local-global Contrastive Learning
- arxiv url: http://arxiv.org/abs/2410.05058v2
- Date: Fri, 25 Oct 2024 11:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:28:18.745004
- Title: Improving Object Detection via Local-global Contrastive Learning
- Title(参考訳): 局所言語コントラスト学習による物体検出の改善
- Authors: Danai Triantafyllidou, Sarah Parisot, Ales Leonardis, Steven McDonagh,
- Abstract要約: 本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
- 参考スコア(独自算出の注目度): 27.660633883387753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual domain gaps often impact object detection performance. Image-to-image translation can mitigate this effect, where contrastive approaches enable learning of the image-to-image mapping under unsupervised regimes. However, existing methods often fail to handle content-rich scenes with multiple object instances, which manifests in unsatisfactory detection performance. Sensitivity to such instance-level content is typically only gained through object annotations, which can be expensive to obtain. Towards addressing this issue, we present a novel image-to-image translation method that specifically targets cross-domain object detection. We formulate our approach as a contrastive learning framework with an inductive prior that optimises the appearance of object instances through spatial attention masks, implicitly delineating the scene into foreground regions associated with the target object instances and background non-object regions. Instead of relying on object annotations to explicitly account for object instances during translation, our approach learns to represent objects by contrasting local-global information. This affords investigation of an under-explored challenge: obtaining performant detection, under domain shifts, without relying on object annotations nor detector model fine-tuning. We experiment with multiple cross-domain object detection settings across three challenging benchmarks and report state-of-the-art performance. Project page: https://local-global-detection.github.io
- Abstract(参考訳): 視覚的なドメインギャップは、しばしばオブジェクト検出のパフォーマンスに影響を与えます。
画像から画像への変換はこの効果を緩和し、対照的なアプローチにより、教師なしの体制下で画像から画像へのマッピングを学習することができる。
しかし、既存のメソッドは複数のオブジェクトインスタンスでコンテンツリッチなシーンを扱うことができず、不満足な検出性能を示す。
このようなインスタンスレベルのコンテンツに対する感度は通常、オブジェクトアノテーションによってのみ得られる。
そこで本研究では,ドメイン間のオブジェクト検出を対象とする画像から画像への変換手法を提案する。
我々は,物体の出現を空間的注意マスクを通して最適化し,対象物体のインスタンスや背景非対象領域に関連付けられた前景領域に暗黙的に配置する,誘導的先行学習フレームワークとして,我々のアプローチを定式化した。
翻訳中にオブジェクトのインスタンスを明示的に説明するためにオブジェクトアノテーションに頼る代わりに、我々のアプローチは、ローカル・グローバルな情報を対比してオブジェクトを表現することを学ぶ。
これにより、オブジェクトアノテーションやディテクターモデルの微調整に頼ることなく、ドメインシフトの下でパフォーマンス検出を得るという、未調査の課題の調査が可能になる。
我々は3つの挑戦的なベンチマークにまたがって複数のクロスドメインオブジェクト検出設定を実験し、最先端のパフォーマンスを報告する。
プロジェクトページ: https://local-global-detection.github.io
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Context-Aware Transfer Attacks for Object Detection [51.65308857232767]
本稿では,オブジェクト検出のためのコンテキスト認識攻撃を新たに生成する手法を提案する。
オブジェクトとその相対的な位置と大きさの共起をコンテキスト情報として利用することにより、ターゲットの誤分類攻撃をうまく生成できることを示す。
論文 参考訳(メタデータ) (2021-12-06T18:26:39Z) - Towards Accurate Localization by Instance Search [2.0539994999823334]
自己評価学習フレームワークが提案され、インスタンス検索によって返されるランクリストの精度の高いオブジェクトローカライゼーションを実現する。
提案フレームワークは,クエリと対応するトップランク検索結果から,ターゲットインスタンスを徐々にマイニングする。
インスタンス検索におけるローカライゼーションの実行に加えて、数発のオブジェクト検出の問題は、同じフレームワークの下でも対処される。
論文 参考訳(メタデータ) (2021-07-11T10:03:31Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。