論文の概要: ICSVR: Investigating Compositional and Semantic Understanding in Video
Retrieval Models
- arxiv url: http://arxiv.org/abs/2306.16533v1
- Date: Wed, 28 Jun 2023 20:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:45:08.337355
- Title: ICSVR: Investigating Compositional and Semantic Understanding in Video
Retrieval Models
- Title(参考訳): ICSVR:ビデオ検索モデルにおける構成的・意味的理解の検討
- Authors: Avinash Madasu, Vasudev Lal
- Abstract要約: 我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と意味的理解を評価する。
実験の結果,アクションやセマンティクスは映像理解におけるオブジェクトや属性よりも小さな役割を担っていることが明らかとなった。
CLIP(Pre-trained Image-text representations)を用いたビデオ検索モデルは、ビデオテキストデータ上で事前トレーニングされたモデルと比較して、セマンティックおよび構成的理解が優れている。
- 参考スコア(独自算出の注目度): 2.216702991322677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video retrieval (VR) involves retrieving the ground truth video from the
video database given a text caption or vice-versa. The two important components
of compositionality: objects \& attributes and actions are joined using correct
semantics to form a proper text query. These components (objects \& attributes,
actions and semantics) each play an important role to help distinguish among
videos and retrieve the correct ground truth video. However, it is unclear what
is the effect of these components on the video retrieval performance. We
therefore, conduct a systematic study to evaluate the compositional and
semantic understanding of video retrieval models on standard benchmarks such as
MSRVTT, MSVD and DIDEMO. The study is performed on two categories of video
retrieval models: (i) which are pre-trained on video-text pairs and fine-tuned
on downstream video retrieval datasets (Eg. Frozen-in-Time, Violet, MCQ etc.)
(ii) which adapt pre-trained image-text representations like CLIP for video
retrieval (Eg. CLIP4Clip, XCLIP, CLIP2Video etc.). Our experiments reveal that
actions and semantics play a minor role compared to objects \& attributes in
video understanding. Moreover, video retrieval models that use pre-trained
image-text representations (CLIP) have better semantic and compositional
understanding as compared to models pre-trained on video-text data.
- Abstract(参考訳): ビデオ検索(VR)は、テキストキャプションまたはリバーサが与えられたビデオデータベースから地上の真理ビデオを取得することを含む。
合成性の2つの重要なコンポーネント:オブジェクト \&属性とアクションは適切なテキストクエリを形成するために正しいセマンティクスを使って結合される。
これらのコンポーネント(属性、アクション、セマンティクスを対象とする)は、それぞれがビデオの識別や正しい地上の真理ビデオの検索に重要な役割を果たす。
しかし,これらのコンポーネントがビデオ検索性能に与える影響は明らかでない。
そこで我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,映像検索モデルの構成的および意味的理解を評価するための体系的研究を行った。
本研究は,ビデオ検索モデルの2つのカテゴリについて行った。
(i)ビデオテキストペアで事前学習し、下流ビデオ検索データセット(例えば、Frozen-in-Time、Violet、MCQなど)で微調整する。
(ii) ビデオ検索にCLIP(CLIP4Clip, XCLIP, CLIP2Videoなど)のような事前訓練済みの画像テキスト表現を適用する。
ビデオ理解において,アクションやセマンティクスはオブジェクトや属性と比較して小さな役割を担っていることが明らかとなった。
さらに、事前学習された画像テキスト表現(CLIP)を用いたビデオ検索モデルは、ビデオテキストデータに事前学習されたモデルと比較して、意味的・構成的理解が優れている。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。