論文の概要: IVCR-200K: A Large-Scale Multi-turn Dialogue Benchmark for Interactive Video Corpus Retrieval
- arxiv url: http://arxiv.org/abs/2512.01312v1
- Date: Mon, 01 Dec 2025 06:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.706265
- Title: IVCR-200K: A Large-Scale Multi-turn Dialogue Benchmark for Interactive Video Corpus Retrieval
- Title(参考訳): IVCR-200K:対話型ビデオコーパス検索のための大規模マルチターン対話ベンチマーク
- Authors: Ning Han, Yawen Zeng, Shaohua Long, Chengqing Li, Sijie Yang, Dun Tan, Jianfeng Dong, Jingjing Chen,
- Abstract要約: 対話型ビデオコーパス検索(IVCR)タスクは,ユーザと検索システム間のマルチターン,対話,現実的な対話を可能にする。
IVCR-200Kは高品質、バイリンガル、マルチターン、会話、抽象的なセマンティックデータセットであり、ビデオ検索やモーメント検索もサポートしている。
本稿では,マルチモーダルな大規模言語モデル(MLLM)に基づく包括的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.33423199468626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, significant developments have been made in both video retrieval and video moment retrieval tasks, which respectively retrieve complete videos or moments for a given text query. These advancements have greatly improved user satisfaction during the search process. However, previous work has failed to establish meaningful "interaction" between the retrieval system and the user, and its one-way retrieval paradigm can no longer fully meet the personalization and dynamic needs of at least 80.8\% of users. In this paper, we introduce the Interactive Video Corpus Retrieval (IVCR) task, a more realistic setting that enables multi-turn, conversational, and realistic interactions between the user and the retrieval system. To facilitate research on this challenging task, we introduce IVCR-200K, a high-quality, bilingual, multi-turn, conversational, and abstract semantic dataset that supports video retrieval and even moment retrieval. Furthermore, we propose a comprehensive framework based on multi-modal large language models (MLLMs) to help users interact in several modes with more explainable solutions. The extensive experiments demonstrate the effectiveness of our dataset and framework.
- Abstract(参考訳): 近年、ビデオ検索とビデオモーメント検索の両方において、与えられたテキストクエリの完全なビデオやモーメントをそれぞれ検索する重要な開発が進められている。
これらの進歩は、検索プロセスにおけるユーザの満足度を大幅に改善した。
しかし,従来の研究では,検索システムとユーザの間に意味のある「相互作用」が確立できず,その一方的な検索パラダイムは,少なくとも80.8\%以上のユーザのパーソナライズと動的ニーズを完全に満たすことはできない。
本稿では,対話型ビデオコーパス検索(IVCR)タスクを提案する。このタスクは,ユーザと検索システム間のマルチターン,対話,現実的な対話を可能にする,より現実的な設定である。
この課題の研究を容易にするために,ビデオ検索とモーメント検索をサポートする高品質,バイリンガル,マルチターン,対話型,抽象的セマンティックデータセットであるIVCR-200Kを導入する。
さらに,マルチモーダルな大規模言語モデル(MLLM)に基づく包括的フレームワークを提案する。
大規模な実験は、我々のデータセットとフレームワークの有効性を実証する。
関連論文リスト
- MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。
2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文 参考訳(メタデータ) (2025-06-11T05:40:26Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Simple Baselines for Interactive Video Retrieval with Questions and
Answers [33.17722358007974]
本稿では,質問応答による対話型ビデオ検索のための,シンプルで効果的なベースラインを提案する。
ユーザインタラクションをシミュレートするためにビデオQAモデルを用い,対話型検索タスクの生産性向上を可能にすることを示す。
MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションを用いたフレームワークは, テキストベースのビデオ検索システムの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-08-21T00:32:19Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。