Fugu-MT 論文翻訳(概要): On Semantic Similarity in Video Retrieval

論文の概要: On Semantic Similarity in Video Retrieval

arxiv url: http://arxiv.org/abs/2103.10095v1
Date: Thu, 18 Mar 2021 09:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-19 14:01:07.529338
Title: On Semantic Similarity in Video Retrieval
Title（参考訳）: ビデオ検索における意味的類似性について
Authors: Michael Wray, Hazel Doughty, Dima Damen
Abstract要約: 本稿では,複数の映像/キャプチャを等しく関連づけることができる意味的類似性ビデオ検索への移行を提案する。 3つの一般的なビデオ検索データセット(MSR-VTT、YouCook2、EPIC-KITCHENS)で解析を行います。
参考スコア（独自算出の注目度）: 31.61611168620582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current video retrieval efforts all found their evaluation on an instance-based assumption, that only a single caption is relevant to a query video and vice versa. We demonstrate that this assumption results in performance comparisons often not indicative of models' retrieval capabilities. We propose a move to semantic similarity video retrieval, where (i) multiple videos/captions can be deemed equally relevant, and their relative ranking does not affect a method's reported performance and (ii) retrieved videos/captions are ranked by their similarity to a query. We propose several proxies to estimate semantic similarities in large-scale retrieval datasets, without additional annotations. Our analysis is performed on three commonly used video retrieval datasets (MSR-VTT, YouCook2 and EPIC-KITCHENS).
Abstract（参考訳）: 現在のビデオ検索の取り組みはすべて、単一のキャプションだけがクエリビデオに関連するというインスタンスベースの仮定に基づいて評価されている。この仮定は、しばしばモデル検索能力を示すものではない性能比較をもたらすことを示す。そこで本研究では, (i) 複数のビデオ/キャプションが等しく関連付けられ, 相対的なランキングがメソッドのパフォーマンスに影響を与えず, (ii) 検索されたビデオ/キャプションがクエリと類似度でランク付けされる,意味的類似度ビデオ検索への移行を提案する。本稿では,大規模検索データセットにおける意味的類似性を付加アノテーションなしで推定するプロキシを提案する。本稿では,3つのビデオ検索データセット(MSR-VTT,YouCook2,EPIC-KITCHENS)を用いて解析を行った。

関連論文リスト

Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric [1.9774761182870912]
本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
論文参考訳（メタデータ） (2025-04-06T18:18:09Z)
Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文参考訳（メタデータ） (2024-07-22T11:52:04Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Video Referring Expression Comprehension via Transformer with Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文参考訳（メタデータ） (2023-10-25T06:38:42Z)
Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文参考訳（メタデータ） (2023-09-14T11:13:36Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks [6.540440003084223]
ビデオキャプションデータセットは、モデルを評価するために再利用されている。多くの代替ビデオもキャプションと一致し、偽陰性なキャプションとビデオのペアが導入された。これらの誤りを正すと、最近の最先端モデルでは25%のリコールポイントが得られることを示す。
論文参考訳（メタデータ） (2022-10-10T22:45:06Z)
Temporal Alignment Prediction for Few-Shot Video Classification [17.18278071760926]
数ショットビデオ分類のためのシーケンス類似性学習に基づく時間アライメント予測(TAP)を提案する。 2つのビデオの類似性を得るために,2つのビデオの時間的位置のすべてのペア間のアライメントスコアを予測した。我々は、KineeticsとSomething V2を含む2つのビデオ分類ベンチマークでTAPを評価した。
論文参考訳（メタデータ） (2021-07-26T05:12:27Z)
Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文参考訳（メタデータ） (2020-10-06T15:38:54Z)
Summarizing the performances of a background subtraction algorithm measured on several videos [9.440689053774898]
本稿では,複数のビデオのパフォーマンスを要約する理論的アプローチを提案する。また,要約性能を計算するための公式とアルゴリズムも提供する。私たちはCDNET 2014で観察を行った。
論文参考訳（メタデータ） (2020-02-13T17:35:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。