論文の概要: TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries
- arxiv url: http://arxiv.org/abs/2407.06597v1
- Date: Tue, 9 Jul 2024 06:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:05:47.832080
- Title: TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries
- Title(参考訳): TVR-Ranking:不正確なクエリでランク付けされた動画モーメント検索のデータセット
- Authors: Renjie Liang, Li Li, Chongzhi Zhang, Jing Wang, Xizhou Zhu, Aixin Sun,
- Abstract要約: 我々は,ビデオのコレクションから,自然言語によるクエリを通じて,マッチングモーメント検索(RVMR)をランク付けするタスクを提案する。
我々は,TVRデータセットに提供される生のビデオと既存のモーメントアノテーションに基づいて,TVR-Rankingデータセットを開発した。
実験の結果、新しいRVMRタスクは既存のモデルに新たな課題をもたらし、このデータセットがマルチモーダリティ検索の研究に寄与していると信じている。
- 参考スコア(独自算出の注目度): 46.492091661862034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose the task of \textit{Ranked Video Moment Retrieval} (RVMR) to locate a ranked list of matching moments from a collection of videos, through queries in natural language. Although a few related tasks have been proposed and studied by CV, NLP, and IR communities, RVMR is the task that best reflects the practical setting of moment search. To facilitate research in RVMR, we develop the TVR-Ranking dataset, based on the raw videos and existing moment annotations provided in the TVR dataset. Our key contribution is the manual annotation of relevance levels for 94,442 query-moment pairs. We then develop the $NDCG@K, IoU\geq \mu$ evaluation metric for this new task and conduct experiments to evaluate three baseline models. Our experiments show that the new RVMR task brings new challenges to existing models and we believe this new dataset contributes to the research on multi-modality search. The dataset is available at \url{https://github.com/Ranking-VMR/TVR-Ranking}
- Abstract(参考訳): 本稿では,ビデオのコレクションから,自然言語によるクエリを通じて,マッチングモーメントのランク付けされたリストを見つけるために, RVMR (textit{Ranked Video Moment Retrieval}) のタスクを提案する。
CV, NLP, IRコミュニティによっていくつかの関連タスクが提案され研究されているが, RVMRはモーメントサーチの実践的設定を最も反映したタスクである。
RVMRの研究を容易にするために,TVRデータセットが提供する生のビデオと既存のモーメントアノテーションに基づいて,TVR-Rankingデータセットを開発した。
私たちの重要な貢献は、94,442のクエリ-モーメントペアの関連度に関するマニュアルアノテーションです。
次に、この新しいタスクに対するNDCG@K, IoU\geq \mu$評価指標を開発し、3つのベースラインモデルを評価する実験を行う。
実験の結果、新しいRVMRタスクは既存のモデルに新たな課題をもたらし、このデータセットがマルチモーダリティ検索の研究に寄与していると信じている。
データセットは \url{https://github.com/Ranking-VMR/TVR-Ranking} で公開されている。
関連論文リスト
- A Dataset for Evaluating LLM-based Evaluation Functions for Research Question Extraction Task [6.757249766769395]
本データセットは、機械学習論文と、GPT-4による研究論文から抽出したRQと、抽出したRQの人間による評価からなる。
このデータセットを用いて,最近提案したLCMに基づく要約評価関数を体系的に比較した。
いずれの関数も人間の評価と十分に高い相関関係は示さなかった。
論文 参考訳(メタデータ) (2024-09-10T21:54:46Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - AssistSR: Affordance-centric Question-driven Video Segment Retrieval [4.047098915826058]
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)
AQVSR(Affordance-centric Question-driven Video Segment Retrieval)と呼ばれる新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:14:10Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval [111.93601253692165]
テレビ番組 Retrieval (TVR) は、新しいマルチモーダル検索データセットである。
TVRはビデオとそれに関連するサブタイトル(対話)のテキストの両方を理解する必要がある。
データセットには、さまざまなジャンルの6つのテレビ番組から21.8Kビデオで収集された109Kクエリが含まれている。
論文 参考訳(メタデータ) (2020-01-24T17:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。