論文の概要: Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis
- arxiv url: http://arxiv.org/abs/2111.11653v1
- Date: Tue, 23 Nov 2021 04:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 02:52:20.058891
- Title: Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis
- Title(参考訳): 非トリミング映像解析のための動的時間概念受容場モデリング
- Authors: Zhaobo Qi, Shuhui Wang, Chi Su, Li Su, Weigang Zhang, Qingming Huang
- Abstract要約: 本稿では,概念に基づくイベント表現の時間的概念受容分野について考察する。
時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成することができる。
- 参考スコア(独自算出の注目度): 105.06166692486674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event analysis in untrimmed videos has attracted increasing attention due to
the application of cutting-edge techniques such as CNN. As a well studied
property for CNN-based models, the receptive field is a measurement for
measuring the spatial range covered by a single feature response, which is
crucial in improving the image categorization accuracy. In video domain, video
event semantics are actually described by complex interaction among different
concepts, while their behaviors vary drastically from one video to another,
leading to the difficulty in concept-based analytics for accurate event
categorization. To model the concept behavior, we study temporal concept
receptive field of concept-based event representation, which encodes the
temporal occurrence pattern of different mid-level concepts. Accordingly, we
introduce temporal dynamic convolution (TDC) to give stronger flexibility to
concept-based event analytics. TDC can adjust the temporal concept receptive
field size dynamically according to different inputs. Notably, a set of
coefficients are learned to fuse the results of multiple convolutions with
different kernel widths that provide various temporal concept receptive field
sizes. Different coefficients can generate appropriate and accurate temporal
concept receptive field size according to input videos and highlight crucial
concepts. Based on TDC, we propose the temporal dynamic concept modeling
network (TDCMN) to learn an accurate and complete concept representation for
efficient untrimmed video analysis. Experiment results on FCVID and ActivityNet
show that TDCMN demonstrates adaptive event recognition ability conditioned on
different inputs, and improve the event recognition performance of
Concept-based methods by a large margin. Code is available at
https://github.com/qzhb/TDCMN.
- Abstract(参考訳): 未トリミングビデオにおけるイベント分析は,CNNなどの最先端技術の適用により注目されている。
CNNモデルに対するよく研究された特性として、受容場は単一の特徴応答によってカバーされる空間範囲を測定するための測定であり、画像分類精度の向上に不可欠である。
ビデオ領域では、ビデオイベントセマンティクスは実際には異なるコンセプト間の複雑なインタラクションによって記述されるが、その動作はビデオによって大きく異なり、正確なイベント分類のための概念ベースの分析が困難になる。
概念の振る舞いをモデル化するために、概念に基づくイベント表現の時間的概念受容領域について検討し、異なる中間概念の時間的発生パターンを符号化する。
したがって、時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
TDCは、異なる入力に応じて時間的概念受容フィールドサイズを動的に調整することができる。
特に、係数の集合は、様々な時間的概念受容場サイズを提供する異なるカーネル幅の複数の畳み込みの結果を融合するために学習される。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成し、重要な概念を強調する。
本稿では,TDCに基づく時間動的概念モデリングネットワーク(TDCMN)を提案する。
FCVIDとActivityNetの実験結果から、TDCMNは異なる入力に対して適応的なイベント認識能力を示し、概念に基づく手法のイベント認識性能を大幅に向上することを示した。
コードはhttps://github.com/qzhb/TDCMNで入手できる。
関連論文リスト
- DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.312501339046296]
我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-19T09:16:54Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。