論文の概要: A Straightforward Framework For Video Retrieval Using CLIP
- arxiv url: http://arxiv.org/abs/2102.12443v2
- Date: Fri, 26 Feb 2021 17:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:03:36.939761
- Title: A Straightforward Framework For Video Retrieval Using CLIP
- Title(参考訳): CLIPを用いたビデオ検索のためのStraightforwardフレームワーク
- Authors: Jes\'us Andr\'es Portillo-Quintero, Jos\'e Carlos Ortiz-Bayliss, Hugo
Terashima-Mar\'in
- Abstract要約: ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。
このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。
本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Retrieval is a challenging task where a text query is matched to a
video or vice versa. Most of the existing approaches for addressing such a
problem rely on annotations made by the users. Although simple, this approach
is not always feasible in practice. In this work, we explore the application of
the language-image model, CLIP, to obtain video representations without the
need for said annotations. This model was explicitly trained to learn a common
space where images and text can be compared. Using various techniques described
in this document, we extended its application to videos, obtaining
state-of-the-art results on the MSR-VTT and MSVD benchmarks.
- Abstract(参考訳): ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。
このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。
単純だが、このアプローチは実際には必ずしも実現可能ではない。
本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。
このモデルは、画像とテキストを比較できる共通空間を学ぶために明示的に訓練された。
本論文では,MSR-VTT および MSVD ベンチマークを用いて,その適用範囲をビデオに拡張した。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。