論文の概要: Align before Adapt: Leveraging Entity-to-Region Alignments for
Generalizable Video Action Recognition
- arxiv url: http://arxiv.org/abs/2311.15619v1
- Date: Mon, 27 Nov 2023 08:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:42:17.856457
- Title: Align before Adapt: Leveraging Entity-to-Region Alignments for
Generalizable Video Action Recognition
- Title(参考訳): align before adapt: 汎用的なビデオアクション認識のためのエンティティ間アライメントの活用
- Authors: Yifei Chen, Dapeng Chen, Ruijin Liu, Sai Zhou, Wenyuan Xue, Wei Peng
- Abstract要約: 本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
ALTは、計算コストを著しく低くしながら、競争性能と優れた一般化性を達成する。
完全に教師されたシナリオでは、4947 GFLOPでKinetics-400の88.1%のトップ-1の精度を達成した。
- 参考スコア(独自算出の注目度): 17.831809435927852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale visual-language pre-trained models have achieved significant
success in various video tasks. However, most existing methods follow an "adapt
then align" paradigm, which adapts pre-trained image encoders to model
video-level representations and utilizes one-hot or text embedding of the
action labels for supervision. This paradigm overlooks the challenge of mapping
from static images to complicated activity concepts. In this paper, we propose
a novel "Align before Adapt" (ALT) paradigm. Prior to adapting to video
representation learning, we exploit the entity-to-region alignments for each
frame. The alignments are fulfilled by matching the region-aware image
embeddings to an offline-constructed text corpus. With the aligned entities, we
feed their text embeddings to a transformer-based video adapter as the queries,
which can help extract the semantics of the most important entities from a
video to a vector. This paradigm reuses the visual-language alignment of VLP
during adaptation and tries to explain an action by the underlying entities.
This helps understand actions by bridging the gap with complex activity
semantics, particularly when facing unfamiliar or unseen categories. ALT
achieves competitive performance and superior generalizability while requiring
significantly low computational costs. In fully supervised scenarios, it
achieves 88.1% top-1 accuracy on Kinetics-400 with only 4947 GFLOPs. In 2-shot
experiments, ALT outperforms the previous state-of-the-art by 7.1% and 9.2% on
HMDB-51 and UCF-101, respectively.
- Abstract(参考訳): 大規模視覚言語事前学習モデルは様々なビデオタスクで大きな成功を収めた。
しかし、既存のほとんどの手法は、訓練済みの画像エンコーダをビデオレベルの表現のモデル化に適応し、アクションラベルのワンホットまたはテキスト埋め込みを監督に利用する「適応的整合」パラダイムに従っている。
このパラダイムは、静的イメージから複雑なアクティビティ概念へのマッピングの課題を見落としています。
本稿では,Align before Adapt(ALT)パラダイムを提案する。
映像表現学習に適応する前に,各フレームのエンティティ・ツー・リージョンアライメントを利用する。
領域認識画像埋め込みをオフライン構築されたテキストコーパスにマッチさせることでアライメントを実現する。
アライメントされたエンティティでは、クエリとしてテキスト埋め込みをtransformerベースのビデオアダプタに送信し、ビデオからベクターへの最も重要なエンティティの意味を抽出するのに役立ちます。
このパラダイムは、適応中のVLPの視覚言語アライメントを再利用し、基礎となるエンティティによるアクションを説明しようとする。
これは複雑なアクティビティセマンティクスとのギャップを埋めることによって、アクションを理解するのに役立つ。
ALTは、計算コストを著しく低くしながら、競争性能と優れた一般化性を達成する。
完全に教師されたシナリオでは、4947 GFLOPでKinetics-400の88.1%のトップ-1の精度を達成した。
2ショット実験では、ALTはHMDB-51とUCF-101でそれぞれ7.1%、9.2%の先行技術よりも優れていた。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。