論文の概要: Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information
- arxiv url: http://arxiv.org/abs/2304.14114v1
- Date: Thu, 27 Apr 2023 11:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:39:06.957980
- Title: Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information
- Title(参考訳): 文脈情報の対話的コントラスト学習による物体検出の精度向上に向けて
- Authors: Lai Qi
- Abstract要約: 弱教師付き物体検出(WSOD)は、画像レベルのタグのみを用いて正確な物体検出を学習することを目的としている。
本稿では、JLWSODと呼ばれる対話型エンドツーエンドWSDOフレームワークを2つの革新と共に提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Weakly supervised object detection (WSOD) aims at learning precise object
detectors with only image-level tags. In spite of intensive research on deep
learning (DL) approaches over the past few years, there is still a significant
performance gap between WSOD and fully supervised object detection. In fact,
most existing WSOD methods only consider the visual appearance of each region
proposal but ignore employing the useful context information in the image. To
this end, this paper proposes an interactive end-to-end WSDO framework called
JLWSOD with two innovations: i) two types of WSOD-specific context information
(i.e., instance-wise correlation andsemantic-wise correlation) are proposed and
introduced into WSOD framework; ii) an interactive graph contrastive learning
(iGCL) mechanism is designed to jointly optimize the visual appearance and
context information for better WSOD performance. Specifically, the iGCL
mechanism takes full advantage of the complementary interpretations of the
WSOD, namely instance-wise detection and semantic-wise prediction tasks,
forming a more comprehensive solution. Extensive experiments on the widely used
PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over
alternative state-of-the-art approaches and baseline models (improvement of
3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively).
- Abstract(参考訳): weakly supervised object detection (wsod) は、画像レベルのタグだけで正確な物体検出を学習することを目的としている。
近年,ディープラーニング (DL) のアプローチに関する研究が盛んに行われているが,WSOD と完全教師付きオブジェクト検出との間には,依然として大きなパフォーマンスギャップがある。
実際、既存のwsodメソッドのほとんどは、各領域の提案の視覚的な外観のみを考慮しつつ、画像内の有用なコンテキスト情報を使用することを無視している。
そこで本研究では,JLWSODという対話型エンドツーエンドWSDOフレームワークを提案する。
i)wsodフレームワークに2種類のwsod固有のコンテキスト情報(すなわち、インスタンス毎の相関関係及びsemantic-wise correlation)を提案し、導入する。
二 対話型グラフコントラッシブラーニング(iGCL)機構は、視覚的外観と文脈情報を協調的に最適化し、WSODの性能を向上させる。
特に、iGCLメカニズムは、WSODの補完的な解釈、すなわちインスタンスワイド検出とセマンティックワイド予測タスクを最大限に活用し、より包括的なソリューションを形成する。
広く使われているPASCAL VOCとMS COCOベンチマークの広範な実験は、JLWSODの代替の最先端アプローチとベースラインモデル(それぞれmAPが3.6%〜23.3%、CorLocが3.4%~19.7%)よりも優れていることを検証している。
関連論文リスト
- SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。