論文の概要: Renmin University of China at TRECVID 2022: Improving Video Search by
Feature Fusion and Negation Understanding
- arxiv url: http://arxiv.org/abs/2211.15039v1
- Date: Mon, 28 Nov 2022 03:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 20:18:32.306675
- Title: Renmin University of China at TRECVID 2022: Improving Video Search by
Feature Fusion and Negation Understanding
- Title(参考訳): renmin university of china at trecvid 2022: 特徴融合と否定理解によるビデオ検索の改善
- Authors: Xirong Li, Aozhu Chen, Ziyue Wang, Fan Hu, Kaibin Tian, Xinru Chen,
Chengbo Dong
- Abstract要約: 我々のソリューションは、軽量注意機能融合(Lightweight Attentional Feature Fusion)と双方向否定学習(Bidirectional Negation Learning)という2つの新しい技術で構築されています。
ビデオ特徴抽出にはCLIP,BLIP,BEiT,ResNeXt-101,irCSNを用いる。
トレーニングデータには,MSR-VTT,TGIF,VATEXが組み込まれている。
- 参考スコア(独自算出の注目度): 8.76492449177079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We summarize our TRECVID 2022 Ad-hoc Video Search (AVS) experiments. Our
solution is built with two new techniques, namely Lightweight Attentional
Feature Fusion (LAFF) for combining diverse visual / textual features and
Bidirectional Negation Learning (BNL) for addressing queries that contain
negation cues. In particular, LAFF performs feature fusion at both early and
late stages and at both text and video ends to exploit diverse (off-the-shelf)
features. Compared to multi-head self attention, LAFF is much more compact yet
more effective. Its attentional weights can also be used for selecting fewer
features, with the retrieval performance mostly preserved. BNL trains a
negation-aware video retrieval model by minimizing a bidirectionally
constrained loss per triplet, where a triplet consists of a given training
video, its original description and a partially negated description. For video
feature extraction, we use pre-trained CLIP, BLIP, BEiT, ResNeXt-101 and irCSN.
As for text features, we adopt bag-of-words, word2vec, CLIP and BLIP. Our
training data consists of MSR-VTT, TGIF and VATEX that were used in our
previous participation. In addition, we automatically caption the V3C1
collection for pre-training. The 2022 edition of the TRECVID benchmark has
again been a fruitful participation for the RUCMM team. Our best run, with an
infAP of 0.262, is ranked at the second place teamwise.
- Abstract(参考訳): TRECVID 2022 Ad-hoc Video Search (AVS) 実験を要約する。
提案手法は,視覚とテキストの多様な特徴を結合するlightweight attentional feature fusion (laff) と,否定的手がかりを含む問合せに対する双方向否定学習 (bnl) という2つの新しい手法を用いて構築した。
特にLAFFは、早期と後期の両方で機能融合を行い、テキストとビデオの両方で多様な(既製の)機能を利用する。
多面的自己注意と比較して、LAFFはよりコンパクトだがより効果的である。
注意重みはより少ない特徴の選択にも利用でき、検索性能はほとんど保存されている。
BNLは、与えられたトレーニングビデオとそのオリジナルの記述と部分的に否定された記述からなる三重項あたりの双方向制約損失を最小化することにより、否定対応のビデオ検索モデルを訓練する。
ビデオ特徴抽出にはCLIP,BLIP,BEiT,ResNeXt-101,irCSNを用いる。
テキスト機能に関しては、baba-of-words、 word2vec、CLIP、BLIPを採用しています。
トレーニングデータには,MSR-VTT,TGIF,VATEXが組み込まれている。
さらに,事前学習のためのv3c1コレクションを自動キャプションする。
TRECVIDベンチマークの2022年版は、再びRUCMMチームにとって実りある参加となった。
私たちのベストランは、infapが0.262で、チーム別で2位にランクインします。
関連論文リスト
- M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based
Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval [13.418762442122723]
本稿では,M2-RAAPと呼ばれる,効果的かつ効率的なゼロショットビデオテキスト検索のための適応型事前学習のためのマルチモーダルレシピを提案する。
論文 参考訳(メタデータ) (2024-01-31T12:45:44Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - SpotEM: Efficient Video Search for Episodic Memory [92.98552727430483]
エピソード記憶は、自然言語クエリに答えるために、長いエゴセントリックなビデオを探すことを目的としています。
既存の方法では、高価な固定長のクリップ機能を抜いて、その答えをビデオの至るところで見ることができる。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
論文 参考訳(メタデータ) (2023-06-28T00:52:49Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Learn to Understand Negation in Video Retrieval [9.929121517850204]
否定は、人間が望まないことを表現できる共通の言語スキルである。
ディープラーニングに基づくビデオ検索モデルは典型的には、否定的な記述を持たないビデオ記述データセットに基づいて訓練される。
ビデオ検索における否定を理解するための学習に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-04-30T02:22:18Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。