論文の概要: Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2502.08544v2
- Date: Thu, 13 Feb 2025 15:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:34.708101
- Title: Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval
- Title(参考訳): Untruthのモーメント:ビデオモーメント検索における負のクェリによる対処
- Authors: Kevin Flanagan, Dima Damen, Michael Wray,
- Abstract要約: Video Moment Retrievalは、視覚言語モデルの性能を評価するための一般的なタスクである。
我々は、モーメント検索精度と負のクエリ拒否精度の両方を考慮した負対応ビデオモーメント検索(NA-VMR)の課題を提案する。
我々は,現在のSOTAビデオモーメント検索手法が負認識ビデオモーメント検索に適応する可能性を分析し,NA-VMRに対応するために設計されたUniVTG-NAを提案する。
- 参考スコア(独自算出の注目度): 23.625455539458606
- License:
- Abstract: Video Moment Retrieval is a common task to evaluate the performance of visual-language models - it involves localising start and end times of moments in videos from query sentences. The current task formulation assumes that the queried moment is present in the video, resulting in false positive moment predictions when irrelevant query sentences are provided. In this paper we propose the task of Negative-Aware Video Moment Retrieval (NA-VMR), which considers both moment retrieval accuracy and negative query rejection accuracy. We make the distinction between In-Domain and Out-of-Domain negative queries and provide new evaluation benchmarks for two popular video moment retrieval datasets: QVHighlights and Charades-STA. We analyse the ability of current SOTA video moment retrieval approaches to adapt to Negative-Aware Video Moment Retrieval and propose UniVTG-NA, an adaptation of UniVTG designed to tackle NA-VMR. UniVTG-NA achieves high negative rejection accuracy (avg. $98.4\%$) scores while retaining moment retrieval scores to within $3.87\%$ Recall@1. Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth
- Abstract(参考訳): Video Moment Retrievalは、ビジュアル言語モデルのパフォーマンスを評価するための一般的なタスクである。
現在のタスク定式化は、ビデオ中にクエリモーメントが存在すると仮定し、無関係なクエリ文が提供されると偽陽性モーメント予測を行う。
本稿では、モーメント検索の精度と負の問合せ拒否の精度を両立させる負対応ビデオモーメント検索(NA-VMR)の課題を提案する。
In-Domain と Out-of-Domain の負のクエリを区別し、人気ビデオモーメント検索データセットである QVHighlights と Charades-STA の新しい評価ベンチマークを提供する。
我々は,現在のSOTAビデオモーメント検索手法が負認識ビデオモーメント検索に適応する可能性を分析し,NA-VMRに対応するために設計されたUniVTG-NAを提案する。
UniVTG-NAは高い負の拒絶精度(avg)を達成する。
980.4\%$)のスコアを維持しながら、モーメント検索スコアを3.87\%のRecall@1.99ドルに維持する。
Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Background-aware Moment Detection for Video Moment Retrieval [19.11524416308641]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
あいまいさのため、クエリは対応するモーメントの関連する詳細を完全にカバーしていない。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Selective Query-guided Debiasing Network for Video Corpus Moment
Retrieval [19.51766089306712]
ビデオモーメント検索は、与えられたテキストクエリに関連する未編集ビデオのターゲットモーメントをローカライズすることを目的としている。
既存の検索システムは、ショートカットとして検索バイアスに依存する傾向にある。
選択型クエリ誘導型デバイアスネットワーク(SQuiDNet)を提案する。
論文 参考訳(メタデータ) (2022-10-17T03:10:21Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。