論文の概要: On Semantic Similarity in Video Retrieval
- arxiv url: http://arxiv.org/abs/2103.10095v1
- Date: Thu, 18 Mar 2021 09:12:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:01:07.529338
- Title: On Semantic Similarity in Video Retrieval
- Title(参考訳): ビデオ検索における意味的類似性について
- Authors: Michael Wray, Hazel Doughty, Dima Damen
- Abstract要約: 本稿では,複数の映像/キャプチャを等しく関連づけることができる意味的類似性ビデオ検索への移行を提案する。
3つの一般的なビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で解析を行います。
- 参考スコア(独自算出の注目度): 31.61611168620582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video retrieval efforts all found their evaluation on an
instance-based assumption, that only a single caption is relevant to a query
video and vice versa. We demonstrate that this assumption results in
performance comparisons often not indicative of models' retrieval capabilities.
We propose a move to semantic similarity video retrieval, where (i) multiple
videos/captions can be deemed equally relevant, and their relative ranking does
not affect a method's reported performance and (ii) retrieved videos/captions
are ranked by their similarity to a query. We propose several proxies to
estimate semantic similarities in large-scale retrieval datasets, without
additional annotations. Our analysis is performed on three commonly used video
retrieval datasets (MSR-VTT, YouCook2 and EPIC-KITCHENS).
- Abstract(参考訳): 現在のビデオ検索の取り組みはすべて、単一のキャプションだけがクエリビデオに関連するというインスタンスベースの仮定に基づいて評価されている。
この仮定は、しばしばモデル検索能力を示すものではない性能比較をもたらすことを示す。
そこで本研究では, (i) 複数のビデオ/キャプションが等しく関連付けられ, 相対的なランキングがメソッドのパフォーマンスに影響を与えず, (ii) 検索されたビデオ/キャプションがクエリと類似度でランク付けされる,意味的類似度ビデオ検索への移行を提案する。
本稿では,大規模検索データセットにおける意味的類似性を付加アノテーションなしで推定するプロキシを提案する。
本稿では,3つのビデオ検索データセット(MSR-VTT,YouCook2,EPIC-KITCHENS)を用いて解析を行った。
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance
Enhancement [79.48249428428802]
ビデオコーパスモーメント検索(VCMR)は、未検索ビデオの大規模なコーパスから関連モーメントを検索するための新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,異なるモダリティに適したクエリ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - ICSVR: Investigating Compositional and Semantic Understanding in Video
Retrieval Models [2.216702991322677]
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と意味的理解を評価する。
実験の結果,アクションやセマンティクスは映像理解におけるオブジェクトや属性よりも小さな役割を担っていることが明らかとなった。
CLIP(Pre-trained Image-text representations)を用いたビデオ検索モデルは、ビデオテキストデータ上で事前トレーニングされたモデルと比較して、セマンティックおよび構成的理解が優れている。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video
Retrieval Benchmarks [6.540440003084223]
ビデオキャプションデータセットは、モデルを評価するために再利用されている。
多くの代替ビデオもキャプションと一致し、偽陰性なキャプションとビデオのペアが導入された。
これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
論文 参考訳(メタデータ) (2022-10-10T22:45:06Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Temporal Alignment Prediction for Few-Shot Video Classification [17.18278071760926]
数ショットビデオ分類のためのシーケンス類似性学習に基づく時間アライメント予測(TAP)を提案する。
2つのビデオの類似性を得るために,2つのビデオの時間的位置のすべてのペア間のアライメントスコアを予測した。
我々は、KineeticsとSomething V2を含む2つのビデオ分類ベンチマークでTAPを評価した。
論文 参考訳(メタデータ) (2021-07-26T05:12:27Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - Summarizing the performances of a background subtraction algorithm
measured on several videos [9.440689053774898]
本稿では,複数のビデオのパフォーマンスを要約する理論的アプローチを提案する。
また,要約性能を計算するための公式とアルゴリズムも提供する。
私たちはCDNET 2014で観察を行った。
論文 参考訳(メタデータ) (2020-02-13T17:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。