論文の概要: Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information
- arxiv url: http://arxiv.org/abs/2304.14114v2
- Date: Fri, 5 May 2023 10:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-08 16:44:33.344999
- Title: Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information
- Title(参考訳): 文脈情報の対話的コントラスト学習による物体検出の精度向上に向けて
- Authors: Qi Lai, ChiMan Vong
- Abstract要約: 弱教師付き物体検出(WSOD)は、画像レベルのタグのみを用いて正確な物体検出を学習することを目的としている。
本稿では、JLWSODと呼ばれる対話型エンドツーエンドWSDOフレームワークを2つの革新と共に提案する。
- 参考スコア(独自算出の注目度): 10.064363395935478
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Weakly supervised object detection (WSOD) aims at learning precise object
detectors with only image-level tags. In spite of intensive research on deep
learning (DL) approaches over the past few years, there is still a significant
performance gap between WSOD and fully supervised object detection. In fact,
most existing WSOD methods only consider the visual appearance of each region
proposal but ignore employing the useful context information in the image. To
this end, this paper proposes an interactive end-to-end WSDO framework called
JLWSOD with two innovations: i) two types of WSOD-specific context information
(i.e., instance-wise correlation andsemantic-wise correlation) are proposed and
introduced into WSOD framework; ii) an interactive graph contrastive learning
(iGCL) mechanism is designed to jointly optimize the visual appearance and
context information for better WSOD performance. Specifically, the iGCL
mechanism takes full advantage of the complementary interpretations of the
WSOD, namely instance-wise detection and semantic-wise prediction tasks,
forming a more comprehensive solution. Extensive experiments on the widely used
PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over
alternative state-of-the-art approaches and baseline models (improvement of
3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively).
- Abstract(参考訳): weakly supervised object detection (wsod) は、画像レベルのタグだけで正確な物体検出を学習することを目的としている。
近年,ディープラーニング (DL) のアプローチに関する研究が盛んに行われているが,WSOD と完全教師付きオブジェクト検出との間には,依然として大きなパフォーマンスギャップがある。
実際、既存のwsodメソッドのほとんどは、各領域の提案の視覚的な外観のみを考慮しつつ、画像内の有用なコンテキスト情報を使用することを無視している。
そこで本研究では,JLWSODという対話型エンドツーエンドWSDOフレームワークを提案する。
i)wsodフレームワークに2種類のwsod固有のコンテキスト情報(すなわち、インスタンス毎の相関関係及びsemantic-wise correlation)を提案し、導入する。
二 対話型グラフコントラッシブラーニング(iGCL)機構は、視覚的外観と文脈情報を協調的に最適化し、WSODの性能を向上させる。
特に、iGCLメカニズムは、WSODの補完的な解釈、すなわちインスタンスワイド検出とセマンティックワイド予測タスクを最大限に活用し、より包括的なソリューションを形成する。
広く使われているPASCAL VOCとMS COCOベンチマークの広範な実験は、JLWSODの代替の最先端アプローチとベースラインモデル(それぞれmAPが3.6%〜23.3%、CorLocが3.4%~19.7%)よりも優れていることを検証している。
関連論文リスト
- Practical Insights into Semi-Supervised Object Detection Approaches [2.4538184328842574]
半教師付き物体検出(SSOD)は,多数のラベル付き画像と限られたラベル付き画像を活用することにより,検出性能を向上させることを目的としている。
我々は、MixPL、Semi-DETR、Consistent-Teacherの3つの最先端SSODアプローチを比較した。
我々の発見は、精度、モデルサイズ、レイテンシのトレードオフを強調し、どの方法が低データ体制に最も適しているかを洞察する。
論文 参考訳(メタデータ) (2026-01-19T20:31:15Z) - Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach [2.1303542744717148]
本稿では、オブジェクト検出におけるLUPI(Learning Using Privileged Information)パラダイムの統合について検討する。
本稿では,ボックスマスクを深層学習に基づく物体検出装置に注入するなど,特権情報を注入するための汎用的モデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2026-01-05T11:24:34Z) - A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.240806100782718]
DASCOは、感情分析のためのきめ細かいスコープ指向のフレームワークである。
依存性解析ツリーを活用することで、アスペクトレベルの感情推論を強化する。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。