論文の概要: CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2303.09044v1
- Date: Thu, 16 Mar 2023 02:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:03:42.482070
- Title: CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos
- Title(参考訳): CoLo-CAM:弱ラベル非拘束ビデオにおけるオブジェクトのコローカライゼーションのためのクラスアクティベーションマッピング
- Authors: Soufiane Belharbi, Shakeeb Murtaza, Marco Pedersoli, Ismail Ben Ayed,
Luke McCaffrey, Eric Granger
- Abstract要約: 弱教師付きビデオオブジェクトのローカライゼーション手法は、しばしば視覚的およびモーション的キューのみに依存し、不正確なローカライゼーションの影響を受ける。
本稿では,オブジェクトの移動に関する仮定を伴わずに,アクティベーションマップの時間情報を活用するために,オブジェクトの局所化のための新しい手法を提案する。
共同学習は、すべての画像位置、およびすべてのフレーム間のピクセル間の直接通信を生成し、学習されたローカライゼーションの転送、集約、修正を可能にする。
- 参考スコア(独自算出の注目度): 21.167349793159108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised video object localization (WSVOL) methods often rely on
visual and motion cues only, making them susceptible to inaccurate
localization. Recently, discriminative models via a temporal class activation
mapping (CAM) method have been explored. Although results are promising,
objects are assumed to have minimal movement leading to degradation in
performance for relatively long-term dependencies. In this paper, a novel
CoLo-CAM method for object localization is proposed to leverage spatiotemporal
information in activation maps without any assumptions about object movement.
Over a given sequence of frames, explicit joint learning of localization is
produced across these maps based on color cues, by assuming an object has
similar color across frames. The CAMs' activations are constrained to activate
similarly over pixels with similar colors, achieving co-localization. This
joint learning creates direct communication among pixels across all image
locations, and over all frames, allowing for transfer, aggregation, and
correction of learned localization. This is achieved by minimizing a color term
of a CRF loss over joint images/maps. In addition to our multi-frame
constraint, we impose per-frame local constraints including pseudo-labels, and
CRF loss in combination with a global size constraint to improve per-frame
localization. Empirical experiments on two challenging datasets for
unconstrained videos, YouTube-Objects, show the merits of our method, and its
robustness to long-term dependencies, leading to new state-of-the-art
localization performance. Public code: https://github.com/sbelharbi/colo-cam.
- Abstract(参考訳): 弱教師付きビデオオブジェクトローカライゼーション(WSVOL)法は、しばしば視覚的およびモーション的キューのみに依存するため、不正確なローカライゼーションの影響を受ける。
近年,時間的クラスアクティベーションマッピング(CAM)法による識別モデルの研究が行われている。
結果は有望だが、オブジェクトは比較的長期にわたる依存に対するパフォーマンスの低下につながる最小限の動きを持つと仮定される。
本稿では,オブジェクトの移動に関する仮定を伴わずに,アクティベーションマップの時空間情報を活用するために,オブジェクトローカライゼーションのための新しいCoLo-CAM手法を提案する。
与えられたフレームの列上では、対象がフレーム全体に類似した色を持つと仮定して、カラーキューに基づいて、これらのマップにまたがる局所化の明示的な共同学習が生成される。
CAMのアクティベーションは、同様の色を持つピクセル上で同様に活性化するように制約され、コローカライゼーションが達成される。
この共同学習は、すべての画像位置および全フレームにわたってピクセル間の直接通信を生成し、学習されたローカライゼーションの転送、集約、修正を可能にする。
これは、ジョイントイメージ/マップよりもCRF損失の色項を最小化する。
マルチフレーム制約に加えて、擬似ラベルやcrf損失を含むフレーム単位のローカル制約を、フレーム単位のローカライゼーションを改善するためにグローバルサイズ制約と組み合わせて課しています。
制約のないビデオのための2つの挑戦的データセットに関する実証実験、YouTube-Objectsは、我々の方法の利点と長期依存に対する堅牢性を示し、新しい最先端のローカライゼーション性能をもたらす。
公開コード:https://github.com/sbelharbi/colo-cam
関連論文リスト
- DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - CREAM: Weakly Supervised Object Localization via Class RE-Activation
Mapping [18.67907876709536]
Class Re-Activation Mapping (CREAM)は、統合オブジェクト領域の活性化値を高めるクラスタリングベースのアプローチである。
CREAMは、CUB、ILSVRC、OpenImagesベンチマークデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-27T11:57:41Z) - Anti-Adversarially Manipulated Attributions for Weakly Supervised
Semantic Segmentation and Object Localization [31.69344455448125]
本稿では,最終ソフトマックス層やシグモイド層の前に分類器が生成する分類スコアを増やすために操作した画像の属性マップを提案する。
この操作は対逆的な方法で実現され、元の画像は対逆攻撃で使用されるものと反対方向に画素勾配に沿って摂動される。
さらに,対象物に関係のない領域の不正な帰属と,対象物の小さな領域への過剰な帰属の集中を抑制する新たな正規化手法を導入する。
論文 参考訳(メタデータ) (2022-04-11T06:18:02Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Improving Weakly-supervised Object Localization via Causal Intervention [41.272141902638275]
最近登場したweakly supervised object localization (wsol)メソッドは、画像レベルのラベルのみを使用して、画像内のオブジェクトをローカライズすることを学ぶことができる。
以前の作品では、小さめの判別的注意マップからインターバルオブジェクトを知覚しようと試みているが、共作者は無視している。
提案手法はci-camと呼ばれ,画像,コンテキスト,カテゴリ間の因果関係を探索し,クラスアクティベーションマップにおける共起バイアスを解消する。
論文 参考訳(メタデータ) (2021-04-21T04:44:33Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。