論文の概要: Uncovering Hidden Challenges in Query-Based Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2009.00325v2
- Date: Wed, 7 Oct 2020 10:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:29:17.808761
- Title: Uncovering Hidden Challenges in Query-Based Video Moment Retrieval
- Title(参考訳): クエリベースのビデオモーメント検索における隠れた課題
- Authors: Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkil\"a
- Abstract要約: 我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
- 参考スコア(独自算出の注目度): 29.90001703587512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The query-based moment retrieval is a problem of localising a specific clip
from an untrimmed video according a query sentence. This is a challenging task
that requires interpretation of both the natural language query and the video
content. Like in many other areas in computer vision and machine learning, the
progress in query-based moment retrieval is heavily driven by the benchmark
datasets and, therefore, their quality has significant impact on the field. In
this paper, we present a series of experiments assessing how well the benchmark
results reflect the true progress in solving the moment retrieval task. Our
results indicate substantial biases in the popular datasets and unexpected
behaviour of the state-of-the-art models. Moreover, we present new sanity check
experiments and approaches for visualising the results. Finally, we suggest
possible directions to improve the temporal sentence grounding in the future.
Our code for this paper is available at
https://mayu-ot.github.io/hidden-challenges-MR .
- Abstract(参考訳): クエリベースのモーメント検索は、クエリ文に従って、未トリミングビデオから特定のクリップをローカライズする問題である。
これは自然言語クエリとビデオコンテンツの両方の解釈を必要とする難しいタスクである。
コンピュータビジョンや機械学習の多くの分野と同様に、クエリベースのモーメント検索の進歩はベンチマークデータセットによって大きく駆動されるため、その品質はこの分野に大きな影響を与えている。
本稿では,モーメント検索タスクの真の進捗をベンチマーク結果がどの程度反映しているかを評価する一連の実験を行う。
結果は,一般的なデータセットにおける偏りや,最先端モデルの予期せぬ振る舞いを示している。
さらに,結果の可視化のための新しい正当性検査実験とアプローチを提案する。
最後に, 今後, 時間文の接地を改善する方向を提案する。
この論文のコードはhttps://mayu-ot.github.io/hidden-challenges-MRで公開されています。
関連論文リスト
- Background-aware Moment Detection for Video Moment Retrieval [19.11524416308641]
ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
あいまいさのため、クエリは対応するモーメントの関連する詳細を完全にカバーしていない。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
論文 参考訳(メタデータ) (2023-06-05T09:26:33Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Selective Query-guided Debiasing Network for Video Corpus Moment
Retrieval [19.51766089306712]
ビデオモーメント検索は、与えられたテキストクエリに関連する未編集ビデオのターゲットモーメントをローカライズすることを目的としている。
既存の検索システムは、ショートカットとして検索バイアスに依存する傾向にある。
選択型クエリ誘導型デバイアスネットワーク(SQuiDNet)を提案する。
論文 参考訳(メタデータ) (2022-10-17T03:10:21Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。