論文の概要: Leveraging Temporal Contextualization for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2404.09490v1
- Date: Mon, 15 Apr 2024 06:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:19:30.743146
- Title: Leveraging Temporal Contextualization for Video Action Recognition
- Title(参考訳): 映像行動認識のための時間的文脈化の活用
- Authors: Minji Kim, Dongyoon Han, Taekyung Kim, Bohyung Han,
- Abstract要約: 本稿では,ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP (TC-CLIP)を紹介する。
本稿では,ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を提案する。
我々は,TC-CLIPを検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。
- 参考スコア(独自算出の注目度): 47.8361303269338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision-language models have shown effectiveness in video understanding. However, recent studies have not sufficiently leveraged essential temporal information from videos, simply averaging frame-wise representations or referencing consecutive frames. We introduce Temporally Contextualized CLIP (TC-CLIP), a pioneering framework for video understanding that effectively and efficiently leverages comprehensive video information. We propose Temporal Contextualization (TC), a novel layer-wise temporal information infusion mechanism for video that extracts core information from each frame, interconnects relevant information across the video to summarize into context tokens, and ultimately leverages the context tokens during the feature encoding process. Furthermore, our Video-conditional Prompting (VP) module manufactures context tokens to generate informative prompts in text modality. We conduct extensive experiments in zero-shot, few-shot, base-to-novel, and fully-supervised action recognition to validate the superiority of our TC-CLIP. Ablation studies for TC and VP guarantee our design choices. Code is available at https://github.com/naver-ai/tc-clip
- Abstract(参考訳): 事前訓練された視覚言語モデルは、ビデオ理解において有効であることが示されている。
しかし、近年の研究では、フレーム単位の表現を単純に平均化したり、連続したフレームを参照したりすることで、ビデオから必須の時間情報を十分に活用していない。
ビデオ理解の先駆的フレームワークであるTemporally Contextualized CLIP(TC-CLIP)を導入し,包括的映像情報の有効かつ効率的に活用する。
本稿では,各フレームからコア情報を抽出し,関連情報を相互に関連付けてコンテクストトークンに要約し,最終的に特徴符号化プロセスにおいてコンテキストトークンを活用する,ビデオの階層的時間情報注入機構であるTemporal Contextualization(TC)を提案する。
さらに,ビデオ条件プロンプティング(VP)モジュールはコンテキストトークンを生成し,テキストのモダリティで情報的プロンプトを生成する。
我々は,TC-CLIPの優位性を検証するため,ゼロショット,少数ショット,ベース・ツー・ノーベル,完全教師付きアクション認識において広範な実験を行う。
TCとVPのアブレーション研究は、私たちの設計選択を保証します。
コードはhttps://github.com/naver-ai/tc-clipで入手できる。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding [22.59291334338824]
相関ガイドによる検出TRansformerは、クエリ関連ビデオクリップのヒントを提供する。
CG-DETRは時間的接地のための様々なベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-15T10:22:35Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。