論文の概要: Orthogonal Temporal Interpolation for Zero-Shot Video Recognition
- arxiv url: http://arxiv.org/abs/2308.06897v1
- Date: Mon, 14 Aug 2023 02:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:46:07.268658
- Title: Orthogonal Temporal Interpolation for Zero-Shot Video Recognition
- Title(参考訳): ゼロショット映像認識のための直交時間補間
- Authors: Yan Zhu, Junbao Zhuo, Bin Ma, Jiajia Geng, Xiaoming Wei, Xiaolin Wei,
Shuhui Wang
- Abstract要約: ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。
近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
- 参考スコア(独自算出の注目度): 45.53856045374685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot video recognition (ZSVR) is a task that aims to recognize video
categories that have not been seen during the model training process. Recently,
vision-language models (VLMs) pre-trained on large-scale image-text pairs have
demonstrated impressive transferability for ZSVR. To make VLMs applicable to
the video domain, existing methods often use an additional temporal learning
module after the image-level encoder to learn the temporal relationships among
video frames. Unfortunately, for video from unseen categories, we observe an
abnormal phenomenon where the model that uses spatial-temporal feature performs
much worse than the model that removes temporal learning module and uses only
spatial feature. We conjecture that improper temporal modeling on video
disrupts the spatial feature of the video. To verify our hypothesis, we propose
Feature Factorization to retain the orthogonal temporal feature of the video
and use interpolation to construct refined spatial-temporal feature. The model
using appropriately refined spatial-temporal feature performs better than the
one using only spatial feature, which verifies the effectiveness of the
orthogonal temporal feature for the ZSVR task. Therefore, an Orthogonal
Temporal Interpolation module is designed to learn a better refined
spatial-temporal video feature during training. Additionally, a Matching Loss
is introduced to improve the quality of the orthogonal temporal feature. We
propose a model called OTI for ZSVR by employing orthogonal temporal
interpolation and the matching loss based on VLMs. The ZSVR accuracies on
popular video datasets (i.e., Kinetics-600, UCF101 and HMDB51) show that OTI
outperforms the previous state-of-the-art method by a clear margin.
- Abstract(参考訳): ゼロショットビデオ認識(zero-shot video recognition, zsvr)は、モデルトレーニングプロセス中に見られなかったビデオカテゴリを認識することを目的としたタスクである。
近年,大規模な画像テキストペア上で事前学習された視覚言語モデル (VLM) は,ZSVRの優れた転送性を示している。
VLMをビデオ領域に適用するために、既存の手法では、画像レベルエンコーダの後に追加の時間学習モジュールを使用して、ビデオフレーム間の時間的関係を学習することが多い。
残念なことに,未発見のカテゴリのビデオでは,空間的-時間的特徴を用いたモデルが,時間的学習モジュールを除去し,空間的特徴のみを使用するモデルよりもはるかに悪くなる異常現象を観察する。
ビデオ上の不適切な時間的モデリングがビデオの空間的特徴を損なうと推測する。
本仮説を検証するために,ビデオの直交時間的特徴を保持するための特徴因子化を提案し,補間を用いて空間的時間的特徴を洗練させる。
また,zsvrタスクにおける直交時間的特徴の有効性を検証するため,空間的特徴のみを用いたモデルよりも精度の高い空間-時間的特徴を用いたモデルを構築した。
したがって、トレーニング中により洗練された空間時空間映像特徴を学ぶために直交時間補間モジュールが設計されている。
また、直交時間特徴の品質を向上させるためにマッチング損失が導入される。
本稿では,直交時間補間とvlmに基づくマッチング損失を用いたzsvr用otiモデルを提案する。
一般的なビデオデータセット(Kinetics-600, UCF101, HMDB51)におけるZSVRの精度は、OTIが従来の最先端手法よりも明確なマージンで優れていることを示している。
関連論文リスト
- When Spatial meets Temporal in Action Recognition [34.53091498930863]
本稿では、時間情報を組み込んだ新しい前処理技術であるTIME(Temporal Integration and Motion Enhancement)について紹介する。
TIME層は、元のシーケンスを再構成し、時間順を保ちながら、時間的に進化するフレームを1つの空間グリッドに埋め込むことにより、新しいビデオフレームを生成する。
実験の結果,TIME層は認識精度を高め,映像処理タスクに有用な洞察を提供することがわかった。
論文 参考訳(メタデータ) (2024-11-22T16:39:45Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。