論文の概要: Video Imprint
- arxiv url: http://arxiv.org/abs/2106.03283v1
- Date: Mon, 7 Jun 2021 00:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:24:13.503039
- Title: Video Imprint
- Title(参考訳): ビデオインプリント
- Authors: Zhanning Gao, Le Wang, Nebojsa Jojic, Zhenxing Niu, Nanning Zheng,
Gang Hua
- Abstract要約: 複雑なイベント検索,認識,記録のための統合ビデオ分析フレームワーク(ER3)が提案されている。
提案したビデオインプリント表現は、ビデオフレーム間の画像特徴間の時間的相関を利用する。
ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールに入力される。
- 参考スコア(独自算出の注目度): 107.1365846180187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A new unified video analytics framework (ER3) is proposed for complex event
retrieval, recognition and recounting, based on the proposed video imprint
representation, which exploits temporal correlations among image features
across video frames. With the video imprint representation, it is convenient to
reverse map back to both temporal and spatial locations in video frames,
allowing for both key frame identification and key areas localization within
each frame. In the proposed framework, a dedicated feature alignment module is
incorporated for redundancy removal across frames to produce the tensor
representation, i.e., the video imprint. Subsequently, the video imprint is
individually fed into both a reasoning network and a feature aggregation
module, for event recognition/recounting and event retrieval tasks,
respectively. Thanks to its attention mechanism inspired by the memory networks
used in language modeling, the proposed reasoning network is capable of
simultaneous event category recognition and localization of the key pieces of
evidence for event recounting. In addition, the latent structure in our
reasoning network highlights the areas of the video imprint, which can be
directly used for event recounting. With the event retrieval task, the compact
video representation aggregated from the video imprint contributes to better
retrieval results than existing state-of-the-art methods.
- Abstract(参考訳): ビデオフレーム間の画像特徴間の時間的相関を利用した,ビデオインプリント表現に基づく複合イベント検索・認識・記録のための統合ビデオ分析フレームワーク(ER3)を提案する。
ビデオインプリント表現では、ビデオフレーム内の時間的位置と空間的位置の両方にマップを戻すのが便利であり、キーフレームの識別と各フレーム内のキー領域のローカライゼーションが可能である。
提案するフレームワークでは,フレーム間の冗長性除去のために専用機能アライメントモジュールを組み込んでテンソル表現,すなわちビデオインプリントを生成する。
その後、ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールの両方に個別に供給される。
言語モデリングで使用されるメモリネットワークに着想を得たアテンション機構のおかげで、提案する推論ネットワークは、イベントカテゴリー認識とイベントリカウントのための重要な証拠のローカライズを同時に行うことができる。
さらに、我々の推論ネットワークにおける潜在構造は、イベント記録に直接使用できるビデオインプリントの領域を強調している。
イベント検索タスクでは、ビデオインプリントから集約されたコンパクトなビデオ表現が、既存の最先端手法よりも優れた検索結果に寄与する。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Video Captioning in Compressed Video [1.953018353016675]
保存した圧縮映像を直接操作する映像キャプション手法を提案する。
ビデオキャプションの識別的視覚表現を学習するために,Iフレームに注目する領域を検出する残差支援エンコーダ (RAE) を設計する。
本手法を2つのベンチマークデータセットで評価し,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-02T03:06:03Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching [0.0]
i) 時間的・知覚的な視覚的特徴を統合したインデックスとクエリシグネチャに基づく,ほぼ重複した映像検出のためのアーキテクチャを提案する。
そこで本研究では,N-gramスライディングウインドウプロセスと理論的に健全な格子構造を結合することで,論理的推論に基づく検索モデルをインスタンス化する手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T04:45:52Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。