論文の概要: Boosting Weakly Supervised Object Detection using Fusion and Priors from
Hallucinated Depth
- arxiv url: http://arxiv.org/abs/2303.10937v1
- Date: Mon, 20 Mar 2023 08:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:24:25.873409
- Title: Boosting Weakly Supervised Object Detection using Fusion and Priors from
Hallucinated Depth
- Title(参考訳): 核融合による弱教師付き物体検出と幻覚深度からの先行
- Authors: Cagri Gungor and Adriana Kovashka
- Abstract要約: 弱教師付き物体検出(WSOD)の性能向上のための増幅器手法を提案する。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を識別するために、深さを計算します。
提案手法は,最新の2つのWSOD法上に実装することで,6つのデータセットに対して評価を行う。
- 参考スコア(独自算出の注目度): 36.75629570208193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent attention and exploration of depth for various tasks, it is
still an unexplored modality for weakly-supervised object detection (WSOD). We
propose an amplifier method for enhancing the performance of WSOD by
integrating depth information. Our approach can be applied to any WSOD method
based on multiple-instance learning, without necessitating additional
annotations or inducing large computational expenses. Our proposed method
employs a monocular depth estimation technique to obtain hallucinated depth
information, which is then incorporated into a Siamese WSOD network using
contrastive loss and fusion. By analyzing the relationship between language
context and depth, we calculate depth priors to identify the bounding box
proposals that may contain an object of interest. These depth priors are then
utilized to update the list of pseudo ground-truth boxes, or adjust the
confidence of per-box predictions. Our proposed method is evaluated on six
datasets (COCO, PASCAL VOC, Conceptual Captions, Clipart1k, Watercolor2k, and
Comic2k) by implementing it on top of two state-of-the-art WSOD methods, and we
demonstrate a substantial enhancement in performance.
- Abstract(参考訳): 様々なタスクに対する近年の注目と深度調査にもかかわらず、弱い監督対象検出(WSOD)に対する探索されていないモダリティである。
深度情報の統合によるWSODの性能向上のための増幅器手法を提案する。
提案手法は, アノテーションの追加や計算コストの増大を伴わずに, マルチインスタンス学習に基づく任意のWSOD手法に適用可能である。
提案手法では, 単眼深度推定手法を用いて幻覚深度情報を取得し, コントラスト損失と融合を用いて, シームズWSODネットワークに組み込む。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を特定するために、深さを計算します。
これらの深さ優先は、擬似基底ボックスのリストを更新するか、ボックス毎の予測の信頼性を調整するために使用される。
提案手法は,COCO,PASCAL VOC,Conceptual Captions,Clipart1k,Watercolor2k,Comic2kの6つのデータセットに対して,最新の2つのWSOD法上に実装し,性能の大幅な向上を示す。
関連論文リスト
- Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - Self-Supervised Monocular Depth Estimation with Internal Feature Fusion [12.874712571149725]
深度推定のための自己教師付き学習は、画像列の幾何学を用いて監督する。
そこで本研究では,ダウンおよびアップサンプリングの手順で意味情報を利用することのできる,新しい深度推定ネットワークDIFFNetを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:31:11Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。