論文の概要: TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos
- arxiv url: http://arxiv.org/abs/2208.14542v1
- Date: Tue, 30 Aug 2022 21:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:19:55.947574
- Title: TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos
- Title(参考訳): TCAM: 弱ラベル非拘束ビデオにおける物体定位のための時間的クラス活性化マップ
- Authors: Soufiane Belharbi, Ismail Ben Ayed, Luke McCaffrey, Eric Granger
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
- 参考スコア(独自算出の注目度): 22.271760669551817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised video object localization (WSVOL) allows locating object in
videos using only global video tags such as object class. State-of-art methods
rely on multiple independent stages, where initial spatio-temporal proposals
are generated using visual and motion cues, then prominent objects are
identified and refined. Localization is done by solving an optimization problem
over one or more videos, and video tags are typically used for video
clustering. This requires a model per-video or per-class making for costly
inference. Moreover, localized regions are not necessary discriminant because
of unsupervised motion methods like optical flow, or because video tags are
discarded from optimization. In this paper, we leverage the successful class
activation mapping (CAM) methods, designed for WSOL based on still images. A
new Temporal CAM (TCAM) method is introduced to train a discriminant deep
learning (DL) model to exploit spatio-temporal information in videos, using an
aggregation mechanism, called CAM-Temporal Max Pooling (CAM-TMP), over
consecutive CAMs. In particular, activations of regions of interest (ROIs) are
collected from CAMs produced by a pretrained CNN classifier to build pixel-wise
pseudo-labels for training the DL model. In addition, a global unsupervised
size constraint, and local constraint such as CRF are used to yield more
accurate CAMs. Inference over single independent frames allows parallel
processing of a clip of frames, and real-time localization. Extensive
experiments on two challenging YouTube-Objects datasets for unconstrained
videos, indicate that CAM methods (trained on independent frames) can yield
decent localization accuracy. Our proposed TCAM method achieves a new
state-of-art in WSVOL accuracy, and visual results suggest that it can be
adapted for subsequent tasks like visual object tracking and detection. Code is
publicly available.
- Abstract(参考訳): 弱い教師付きビデオオブジェクトローカライゼーション(wsvol)は、オブジェクトクラスのようなグローバルビデオタグのみを使用して、ビデオ内のオブジェクトを特定できる。
最先端の手法は複数の独立した段階に依存しており、最初の時空間的提案は視覚と運動の手がかりを使って生成される。
ローカライゼーションは、1つ以上のビデオで最適化問題を解決することで行われ、ビデオタグは一般的にビデオクラスタリングに使用される。
これにより、ビデオごとのモデルやクラスごとのモデルが必要になります。
さらに、光学フローのような教師なしの動作方法や、ビデオタグが最適化から除外されるため、局所化領域は不要である。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
CAM-TMP(Cam-Temporal Max Pooling)と呼ばれるアグリゲーション機構を用いて、ビデオ中の時空間情報を活用するために、識別深層学習(DL)モデルをトレーニングするために、TCAM(Temporal CAM)法が導入された。
特に、事前訓練されたCNN分類器によって生成されたCAMから関心領域(ROI)の活性化を収集し、DLモデルをトレーニングするためのピクセル単位の擬似ラベルを構築する。
さらに、グローバルな教師なしサイズの制約と、CRFのような局所的な制約を使用して、より正確なCAMを生成する。
単一の独立フレーム上の推論は、フレームクリップの並列処理とリアルタイムローカライズを可能にする。
未訓練ビデオのための2つの挑戦的なyoutube-objectsデータセットに関する広範囲な実験は、camメソッド(独立したフレームでトレーニング)が適切なローカライズ精度をもたらすことを示している。
提案手法では,WSVOLの精度が向上し,視覚的物体追跡や検出などのタスクに適応できる可能性が示唆された。
コードは公開されている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
結果の時系列は、Diagonalized Dynamic Time Warping(DDTW)と呼ばれる動的時間ワープの新しいバージョンを使用して、同じアクションのビデオのアライメントに使用される。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - CoLo-CAM: Class Activation Mapping for Object Co-Localization in
Weakly-Labeled Unconstrained Videos [23.447026400051772]
コローカライゼーション-CAM法は、物体の位置を拘束することなく、訓練中のアクティベーションマップの時間情報を利用する。
共同ローカライゼーションは、共同学習がすべての画像位置を横断する画素間の直接通信を生成するため、ローカライゼーション性能を向上させる。
論文 参考訳(メタデータ) (2023-03-16T02:29:53Z) - Enabling Weakly-Supervised Temporal Action Localization from On-Device
Learning of the Video Stream [5.215681853828831]
長編未編集のストリーミングビデオから学習するための効率的なビデオ学習手法を提案する。
私たちの知る限りでは、オンデバイスで長いビデオストリームから直接学習する最初の試みです。
論文 参考訳(メタデータ) (2022-08-25T13:41:03Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - F-CAM: Full Resolution CAM via Guided Parametric Upscaling [20.609010268320013]
クラスアクティベーションマッピング(CAM)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに多くの注目を集めている。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
完全分解能CAMを高精度に構築できるCAMのパラメトリックアップスケーリング法を提案する。
論文 参考訳(メタデータ) (2021-09-15T04:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。