論文の概要: ICSVR: Investigating Compositional and Semantic Understanding in Video
Retrieval Models
- arxiv url: http://arxiv.org/abs/2306.16533v1
- Date: Wed, 28 Jun 2023 20:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:45:08.337355
- Title: ICSVR: Investigating Compositional and Semantic Understanding in Video
Retrieval Models
- Title(参考訳): ICSVR:ビデオ検索モデルにおける構成的・意味的理解の検討
- Authors: Avinash Madasu, Vasudev Lal
- Abstract要約: 我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と意味的理解を評価する。
実験の結果,アクションやセマンティクスは映像理解におけるオブジェクトや属性よりも小さな役割を担っていることが明らかとなった。
CLIP(Pre-trained Image-text representations)を用いたビデオ検索モデルは、ビデオテキストデータ上で事前トレーニングされたモデルと比較して、セマンティックおよび構成的理解が優れている。
- 参考スコア(独自算出の注目度): 2.216702991322677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video retrieval (VR) involves retrieving the ground truth video from the
video database given a text caption or vice-versa. The two important components
of compositionality: objects \& attributes and actions are joined using correct
semantics to form a proper text query. These components (objects \& attributes,
actions and semantics) each play an important role to help distinguish among
videos and retrieve the correct ground truth video. However, it is unclear what
is the effect of these components on the video retrieval performance. We
therefore, conduct a systematic study to evaluate the compositional and
semantic understanding of video retrieval models on standard benchmarks such as
MSRVTT, MSVD and DIDEMO. The study is performed on two categories of video
retrieval models: (i) which are pre-trained on video-text pairs and fine-tuned
on downstream video retrieval datasets (Eg. Frozen-in-Time, Violet, MCQ etc.)
(ii) which adapt pre-trained image-text representations like CLIP for video
retrieval (Eg. CLIP4Clip, XCLIP, CLIP2Video etc.). Our experiments reveal that
actions and semantics play a minor role compared to objects \& attributes in
video understanding. Moreover, video retrieval models that use pre-trained
image-text representations (CLIP) have better semantic and compositional
understanding as compared to models pre-trained on video-text data.
- Abstract(参考訳): ビデオ検索(VR)は、テキストキャプションまたはリバーサが与えられたビデオデータベースから地上の真理ビデオを取得することを含む。
合成性の2つの重要なコンポーネント:オブジェクト \&属性とアクションは適切なテキストクエリを形成するために正しいセマンティクスを使って結合される。
これらのコンポーネント(属性、アクション、セマンティクスを対象とする)は、それぞれがビデオの識別や正しい地上の真理ビデオの検索に重要な役割を果たす。
しかし,これらのコンポーネントがビデオ検索性能に与える影響は明らかでない。
そこで我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,映像検索モデルの構成的および意味的理解を評価するための体系的研究を行った。
本研究は,ビデオ検索モデルの2つのカテゴリについて行った。
(i)ビデオテキストペアで事前学習し、下流ビデオ検索データセット(例えば、Frozen-in-Time、Violet、MCQなど)で微調整する。
(ii) ビデオ検索にCLIP(CLIP4Clip, XCLIP, CLIP2Videoなど)のような事前訓練済みの画像テキスト表現を適用する。
ビデオ理解において,アクションやセマンティクスはオブジェクトや属性と比較して小さな役割を担っていることが明らかとなった。
さらに、事前学習された画像テキスト表現(CLIP)を用いたビデオ検索モデルは、ビデオテキストデータに事前学習されたモデルと比較して、意味的・構成的理解が優れている。
関連論文リスト
- Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [70.48740920699194]
テキストとビデオトークンを共同で最適化し,「ビデオ条件付きテキスト」埋め込みを生成するVicTRを提案する。
本手法は,視覚的な補助テキストの形で,自由に利用できるセマンティック情報を活用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip
Retrieval [31.7091206926183]
CLIP(Contrastive Language-Image Pre-training)は、Web収集された画像テキストデータセットから学習する視覚概念の力を示した。
本稿では,CLIPモデルの知識をエンドツーエンドにビデオ言語検索に転送するCLIP4Clipモデルを提案する。
論文 参考訳(メタデータ) (2021-04-18T13:59:50Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。