論文の概要: CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2303.09044v3
- Date: Tue, 27 Feb 2024 06:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 00:55:02.096608
- Title: CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos
- Title(参考訳): CoLo-CAM:弱ラベル非拘束ビデオにおけるオブジェクトのコローカライゼーションのためのクラスアクティベーションマッピング
- Authors: Soufiane Belharbi, Shakeeb Murtaza, Marco Pedersoli, Ismail Ben Ayed,
Luke McCaffrey, Eric Granger
- Abstract要約: コローカライゼーション-CAM法は、物体の位置を拘束することなく、訓練中のアクティベーションマップの時間情報を利用する。
共同ローカライゼーションは、共同学習がすべての画像位置を横断する画素間の直接通信を生成するため、ローカライゼーション性能を向上させる。
- 参考スコア(独自算出の注目度): 23.447026400051772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging spatiotemporal information in videos is critical for weakly
supervised video object localization (WSVOL) tasks. However, state-of-the-art
methods only rely on visual and motion cues, while discarding discriminative
information, making them susceptible to inaccurate localizations. Recently,
discriminative models have been explored for WSVOL tasks using a temporal class
activation mapping (CAM) method. Although their results are promising, objects
are assumed to have limited movement from frame to frame, leading to
degradation in performance for relatively long-term dependencies. This paper
proposes a novel CAM method for WSVOL that exploits spatiotemporal information
in activation maps during training without constraining an object's position.
Its training relies on Co-Localization, hence, the name CoLo-CAM. Given a
sequence of frames, localization is jointly learned based on color cues
extracted across the corresponding maps, by assuming that an object has similar
color in consecutive frames. CAM activations are constrained to respond
similarly over pixels with similar colors, achieving co-localization. This
improves localization performance because the joint learning creates direct
communication among pixels across all image locations and over all frames,
allowing for transfer, aggregation, and correction of localizations.
Co-localization is integrated into training by minimizing the color term of a
conditional random field (CRF) loss over a sequence of frames/CAMs. Extensive
experiments on two challenging YouTube-Objects datasets of unconstrained videos
show the merits of our CoLo-CAM method, and its robustness to long-term
dependencies, leading to new state-of-the-art performance for WSVOL task.
- Abstract(参考訳): ビデオにおける時空間情報の活用は、弱教師付きビデオオブジェクトローカライゼーション(WSVOL)タスクにおいて重要である。
しかし、最先端の手法は視覚と運動の手がかりにのみ依存するが、識別情報の破棄は不正確なローカライゼーションを許容する。
近年,時間的クラスアクティベーションマッピング(CAM)法を用いたWSVOLタスクの識別モデルが検討されている。
結果は有望だが、オブジェクトはフレームからフレームへの移動が限られていると仮定され、比較的長期の依存関係でパフォーマンスが低下する。
本稿では、物体の位置を拘束することなく、訓練中の活性化マップの時空間情報を活用できる新しいWSVOLのCAM手法を提案する。
訓練はコローカライゼーションに依存しており、CoLo-CAMという名称である。
フレームのシーケンスが与えられると、オブジェクトが連続するフレームで同様の色を持つと仮定して、対応するマップ全体から抽出されたカラーキューに基づいて、ローカライゼーションを共同で学習する。
CAMアクティベーションは、同様の色を持つピクセルに対して同様の反応を制限され、コローカライゼーションが達成される。
これは、共同学習がすべての画像位置と全フレーム間の直接通信を生成し、ローカライゼーションの転送、集約、修正を可能にするため、ローカライゼーション性能を向上させる。
コローカライゼーションは、条件付きランダムフィールド(CRF)ロスの色項をフレーム/CAMのシーケンス上で最小化することにより、トレーニングに統合される。
制約のないビデオの2つの挑戦的なYouTube-Objectsデータセットに対する大規模な実験は、当社のCoLo-CAMメソッドのメリットと、長期依存に対する堅牢性を示し、WSVOLタスクの新たな最先端パフォーマンスにつながった。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos [12.762698438702854]
最先端WSVOL法はクラスアクティベーションマッピング(CAM)に依存している
我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。
推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
論文 参考訳(メタデータ) (2024-07-08T15:08:41Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - CREAM: Weakly Supervised Object Localization via Class RE-Activation
Mapping [18.67907876709536]
Class Re-Activation Mapping (CREAM)は、統合オブジェクト領域の活性化値を高めるクラスタリングベースのアプローチである。
CREAMは、CUB、ILSVRC、OpenImagesベンチマークデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-27T11:57:41Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - F-CAM: Full Resolution CAM via Guided Parametric Upscaling [20.609010268320013]
クラスアクティベーションマッピング(CAM)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに多くの注目を集めている。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
完全分解能CAMを高精度に構築できるCAMのパラメトリックアップスケーリング法を提案する。
論文 参考訳(メタデータ) (2021-09-15T04:45:20Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。