論文の概要: Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2407.06018v1
- Date: Mon, 8 Jul 2024 15:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:10:58.533913
- Title: Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos
- Title(参考訳): 非拘束映像における弱教師付き物体位置定位変換器の活用
- Authors: Shakeeb Murtaza, Marco Pedersoli, Aydin Sarraf, Eric Granger,
- Abstract要約: 最先端WSVOL法はクラスアクティベーションマッピング(CAM)に依存している
我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。
推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
- 参考スコア(独自算出の注目度): 12.762698438702854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-Supervised Video Object Localization (WSVOL) involves localizing an object in videos using only video-level labels, also referred to as tags. State-of-the-art WSVOL methods like Temporal CAM (TCAM) rely on class activation mapping (CAM) and typically require a pre-trained CNN classifier. However, their localization accuracy is affected by their tendency to minimize the mutual information between different instances of a class and exploit temporal information during training for downstream tasks, e.g., detection and tracking. In the absence of bounding box annotation, it is challenging to exploit precise information about objects from temporal cues because the model struggles to locate objects over time. To address these issues, a novel method called transformer based CAM for videos (TrCAM-V), is proposed for WSVOL. It consists of a DeiT backbone with two heads for classification and localization. The classification head is trained using standard classification loss (CL), while the localization head is trained using pseudo-labels that are extracted using a pre-trained CLIP model. From these pseudo-labels, the high and low activation values are considered to be foreground and background regions, respectively. Our TrCAM-V method allows training a localization network by sampling pseudo-pixels on the fly from these regions. Additionally, a conditional random field (CRF) loss is employed to align the object boundaries with the foreground map. During inference, the model can process individual frames for real-time localization applications. Extensive experiments on challenging YouTube-Objects unconstrained video datasets show that our TrCAM-V method achieves new state-of-the-art performance in terms of classification and localization accuracy.
- Abstract(参考訳): WSVOL (Weakly-Supervised Video Object Localization) は、ビデオレベルのラベルのみを使用して、ビデオ内のオブジェクトをローカライズする。
時間CAM(TCAM)のような最先端のWSVOLメソッドは、クラスアクティベーションマッピング(CAM)に依存しており、通常、トレーニング済みのCNN分類器を必要とする。
しかし、それらの局所化精度は、クラスの異なるインスタンス間の相互情報を最小限に抑え、下流タスク(例えば、検出と追跡)のトレーニング中に時間的情報を活用する傾向に影響される。
境界ボックスアノテーションがない場合には、時間とともにオブジェクトを見つけるのに苦労するため、時間的手がかりからオブジェクトに関する正確な情報を利用するのは難しい。
これらの問題に対処するため、WSVOLでは、ビデオ用トランスフォーマーベースCAM(TrCAM-V)と呼ばれる新しい手法が提案されている。
分類とローカライゼーションのための2つの頭を持つDeiTバックボーンで構成されている。
分類ヘッドは標準分類損失(CL)を用いて訓練され、ローカライゼーションヘッドは事前訓練されたCLIPモデルを用いて抽出された擬似ラベルを用いて訓練される。
これらの擬似ラベルから、高い活性化値と低い活性化値はそれぞれ前景領域と背景領域とみなす。
我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。
さらに、条件付きランダムフィールド(CRF)損失を用いて、対象の境界を前景マップと整列させる。
推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
YouTube-Objectsの制約のないビデオデータセットに挑戦する大規模な実験は、TrCAM-V法が、分類とローカライゼーションの精度の観点から、新しい最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos [23.447026400051772]
コローカライゼーション-CAM法は、物体の位置を拘束することなく、訓練中のアクティベーションマップの時間情報を利用する。
共同ローカライゼーションは、共同学習がすべての画像位置を横断する画素間の直接通信を生成するため、ローカライゼーション性能を向上させる。
論文 参考訳(メタデータ) (2023-03-16T02:29:53Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。