Fugu-MT 論文翻訳(概要): TCAM: Temporal Class Activation Maps for Object Localization in Weakly-Labeled Unconstrained Videos

論文の概要: TCAM: Temporal Class Activation Maps for Object Localization in Weakly-Labeled Unconstrained Videos

arxiv url: http://arxiv.org/abs/2208.14542v1
Date: Tue, 30 Aug 2022 21:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-01 13:19:55.947574
Title: TCAM: Temporal Class Activation Maps for Object Localization in Weakly-Labeled Unconstrained Videos
Title（参考訳）: TCAM: 弱ラベル非拘束ビデオにおける物体定位のための時間的クラス活性化マップ
Authors: Soufiane Belharbi, Ismail Ben Ayed, Luke McCaffrey, Eric Granger
Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
参考スコア（独自算出の注目度）: 22.271760669551817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly supervised video object localization (WSVOL) allows locating object in videos using only global video tags such as object class. State-of-art methods rely on multiple independent stages, where initial spatio-temporal proposals are generated using visual and motion cues, then prominent objects are identified and refined. Localization is done by solving an optimization problem over one or more videos, and video tags are typically used for video clustering. This requires a model per-video or per-class making for costly inference. Moreover, localized regions are not necessary discriminant because of unsupervised motion methods like optical flow, or because video tags are discarded from optimization. In this paper, we leverage the successful class activation mapping (CAM) methods, designed for WSOL based on still images. A new Temporal CAM (TCAM) method is introduced to train a discriminant deep learning (DL) model to exploit spatio-temporal information in videos, using an aggregation mechanism, called CAM-Temporal Max Pooling (CAM-TMP), over consecutive CAMs. In particular, activations of regions of interest (ROIs) are collected from CAMs produced by a pretrained CNN classifier to build pixel-wise pseudo-labels for training the DL model. In addition, a global unsupervised size constraint, and local constraint such as CRF are used to yield more accurate CAMs. Inference over single independent frames allows parallel processing of a clip of frames, and real-time localization. Extensive experiments on two challenging YouTube-Objects datasets for unconstrained videos, indicate that CAM methods (trained on independent frames) can yield decent localization accuracy. Our proposed TCAM method achieves a new state-of-art in WSVOL accuracy, and visual results suggest that it can be adapted for subsequent tasks like visual object tracking and detection. Code is publicly available.
Abstract（参考訳）: 弱い教師付きビデオオブジェクトローカライゼーション(wsvol)は、オブジェクトクラスのようなグローバルビデオタグのみを使用して、ビデオ内のオブジェクトを特定できる。最先端の手法は複数の独立した段階に依存しており、最初の時空間的提案は視覚と運動の手がかりを使って生成される。ローカライゼーションは、1つ以上のビデオで最適化問題を解決することで行われ、ビデオタグは一般的にビデオクラスタリングに使用される。これにより、ビデオごとのモデルやクラスごとのモデルが必要になります。さらに、光学フローのような教師なしの動作方法や、ビデオタグが最適化から除外されるため、局所化領域は不要である。本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。 CAM-TMP(Cam-Temporal Max Pooling)と呼ばれるアグリゲーション機構を用いて、ビデオ中の時空間情報を活用するために、識別深層学習(DL)モデルをトレーニングするために、TCAM(Temporal CAM)法が導入された。特に、事前訓練されたCNN分類器によって生成されたCAMから関心領域(ROI)の活性化を収集し、DLモデルをトレーニングするためのピクセル単位の擬似ラベルを構築する。さらに、グローバルな教師なしサイズの制約と、CRFのような局所的な制約を使用して、より正確なCAMを生成する。単一の独立フレーム上の推論は、フレームクリップの並列処理とリアルタイムローカライズを可能にする。未訓練ビデオのための2つの挑戦的なyoutube-objectsデータセットに関する広範囲な実験は、camメソッド(独立したフレームでトレーニング)が適切なローカライズ精度をもたらすことを示している。提案手法では,WSVOLの精度が向上し,視覚的物体追跡や検出などのタスクに適応できる可能性が示唆された。コードは公開されている。

関連論文リスト

Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Leveraging Transformers for Weakly Supervised Object Localization in Unconstrained Videos [12.762698438702854]
最先端WSVOL法はクラスアクティベーションマッピング(CAM)に依存している我々のTrCAM-V法は,これらの領域からハエの擬似ピクセルをサンプリングすることで,ローカライズネットワークのトレーニングを可能にする。推論中、モデルはリアルタイムなローカライゼーションアプリケーションのために個々のフレームを処理できる。
論文参考訳（メタデータ） (2024-07-08T15:08:41Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文参考訳（メタデータ） (2023-08-21T22:15:20Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文参考訳（メタデータ） (2023-04-13T22:20:54Z)
CoLo-CAM: Class Activation Mapping for Object Co-Localization in Weakly-Labeled Unconstrained Videos [23.447026400051772]
コローカライゼーション-CAM法は、物体の位置を拘束することなく、訓練中のアクティベーションマップの時間情報を利用する。共同ローカライゼーションは、共同学習がすべての画像位置を横断する画素間の直接通信を生成するため、ローカライゼーション性能を向上させる。
論文参考訳（メタデータ） (2023-03-16T02:29:53Z)
Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文参考訳（メタデータ） (2022-03-25T12:13:43Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
F-CAM: Full Resolution CAM via Guided Parametric Upscaling [20.609010268320013]
クラスアクティベーションマッピング(CAM)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに多くの注目を集めている。 CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。完全分解能CAMを高精度に構築できるCAMのパラメトリックアップスケーリング法を提案する。
論文参考訳（メタデータ） (2021-09-15T04:45:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。