論文の概要: Temporal Query Networks for Fine-grained Video Understanding
- arxiv url: http://arxiv.org/abs/2104.09496v1
- Date: Mon, 19 Apr 2021 17:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:45:21.972019
- Title: Temporal Query Networks for Fine-grained Video Understanding
- Title(参考訳): 微細映像理解のための時間問合せネットワーク
- Authors: Chuhan Zhang, Ankush Gupta, Andrew Zisserman
- Abstract要約: 我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
- 参考スコア(独自算出の注目度): 88.9877174286279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our objective in this work is fine-grained classification of actions in
untrimmed videos, where the actions may be temporally extended or may span only
a few frames of the video. We cast this into a query-response mechanism, where
each query addresses a particular question, and has its own response label set.
We make the following four contributions: (I) We propose a new model - a
Temporal Query Network - which enables the query-response functionality, and a
structural understanding of fine-grained actions. It attends to relevant
segments for each query with a temporal attention mechanism, and can be trained
using only the labels for each query. (ii) We propose a new way - stochastic
feature bank update - to train a network on videos of various lengths with the
dense sampling required to respond to fine-grained queries. (iii) We compare
the TQN to other architectures and text supervision methods, and analyze their
pros and cons. Finally, (iv) we evaluate the method extensively on the FineGym
and Diving48 benchmarks for fine-grained action classification and surpass the
state-of-the-art using only RGB features.
- Abstract(参考訳): この研究の目標は、アクションが一時的に拡張されたり、ビデオのフレーム数フレームにしか及ばないような、未トリミングビデオにおけるアクションのきめ細かい分類です。
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
以下に示す4つのコントリビューションについて述べる。 (I) クエリ応答機能ときめ細かいアクションの構造的理解を可能にする新しいモデル、テンポラルクエリネットワークを提案する。
クエリ毎の関連セグメントに時間的アテンション機構を持ち,クエリ毎のラベルのみを使用してトレーニングすることができる。
(II)細粒度クエリに応答するのに必要となる高密度サンプリングを用いて,様々な長さのビデオ上でネットワークをトレーニングする新しい方法(確率的機能バンク更新)を提案する。
3)TQNを他のアーキテクチャやテキスト管理手法と比較し,その長所と短所を解析する。
最後に,(iv)細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークの手法を広範囲に評価し,rgb機能のみを用いて最先端技術を超えている。
関連論文リスト
- Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Query-Guided Networks for Few-shot Fine-grained Classification and
Person Search [93.80556485668731]
微粒な分類や人物検索は、個別のタスクとして現れ、文学はそれらを別々に扱ってきた。
両タスクに適用可能な新しい統合クエリガイドネットワーク(QGN)を提案する。
QGNは、最近の数ショットのきめ細かいデータセットを改善し、CUB上の他のテクニックを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-09-21T10:25:32Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z) - Video Monitoring Queries [16.7214343633499]
ビデオストリーム上での対話型宣言型クエリ処理の問題について検討する。
特定のタイプのオブジェクトを含むクエリを高速化するために、近似フィルタのセットを導入します。
フィルタは、クエリ述語が真実であれば素早く評価でき、フレームのさらなる分析を進めることができる。
論文 参考訳(メタデータ) (2020-02-24T20:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。