論文の概要: Temporal Saliency Query Network for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2207.10379v1
- Date: Thu, 21 Jul 2022 09:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:09:12.889986
- Title: Temporal Saliency Query Network for Efficient Video Recognition
- Title(参考訳): 効率的な映像認識のための時間的サルディエンシークエリネットワーク
- Authors: Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han
- Abstract要約: ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
- 参考スコア(独自算出の注目度): 82.52760040577864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient video recognition is a hot-spot research topic with the explosive
growth of multimedia data on the Internet and mobile devices. Most existing
methods select the salient frames without awareness of the class-specific
saliency scores, which neglect the implicit association between the saliency of
frames and its belonging category. To alleviate this issue, we devise a novel
Temporal Saliency Query (TSQ) mechanism, which introduces class-specific
information to provide fine-grained cues for saliency measurement.
Specifically, we model the class-specific saliency measuring process as a
query-response task. For each category, the common pattern of it is employed as
a query and the most salient frames are responded to it. Then, the calculated
similarities are adopted as the frame saliency scores. To achieve it, we
propose a Temporal Saliency Query Network (TSQNet) that includes two
instantiations of the TSQ mechanism based on visual appearance similarities and
textual event-object relations. Afterward, cross-modality interactions are
imposed to promote the information exchange between them. Finally, we use the
class-specific saliencies of the most confident categories generated by two
modalities to perform the selection of salient frames. Extensive experiments
demonstrate the effectiveness of our method by achieving state-of-the-art
results on ActivityNet, FCVID and Mini-Kinetics datasets. Our project page is
at https://lawrencexia2008.github.io/projects/tsqnet .
- Abstract(参考訳): 効率的なビデオ認識は、インターネットやモバイルデバイスにおけるマルチメディアデータの爆発的な成長を伴うホットスポットな研究テーマである。
既存のほとんどの手法では、クラス固有のサリエンシスコアを意識せずにサリエントフレームを選択し、フレームのサリエンシとその属するカテゴリ間の暗黙的な関連を無視している。
この問題を軽減するため,我々は,クラス固有の情報を導入する新しい時間的サリエンシークエリ(tsq)機構を考案し,サリエンシー測定のための細かな手がかりを提供する。
具体的には、クラス固有の塩分測定プロセスをクエリ応答タスクとしてモデル化する。
各カテゴリについて、その共通パターンをクエリとして使用し、最も適切なフレームに応答する。
そして、算出された類似度をフレームサリエンシースコアとして採用する。
そこで本稿では,視覚的外観類似性とテキストイベントオブジェクト関係に基づくTSQ機構の2つのインスタンス化を含むTSQNet(Temporal Saliency Query Network)を提案する。
その後、それらの間の情報交換を促進するために、相互モダリティ相互作用が課される。
最後に、2つのモダリティによって生成される最も自信あるカテゴリのクラス固有のサリエンシを用いて、サリエントフレームの選択を行う。
大規模実験により, activitynet, fcvid, mini-kinetics データセットを用いた最新結果が得られた。
プロジェクトページはhttps://lawrencexia2008.github.io/projects/tsqnet.orgにある。
関連論文リスト
- Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文 参考訳(メタデータ) (2023-01-18T14:36:22Z) - What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection [4.726777092009554]
Video Visual Relation Detection (VidD): セグメントベース、ウィンドウベース。
まず,2つの手法が持つ限界を指摘し,効率性と有効性という2つの利点を持つ新しい手法であるテンポラル・スパン・プロポーザル・ネットワーク(TSPN)を提案する。
論文 参考訳(メタデータ) (2021-07-15T07:01:26Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。