論文の概要: When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions
- arxiv url: http://arxiv.org/abs/2510.17218v1
- Date: Mon, 20 Oct 2025 07:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.34279
- Title: When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions
- Title(参考訳): 1つのモーメントが十分でないとき: クロスモーメント相互作用を持つマルチモーメント検索
- Authors: Zhuo Cao, Heming Du, Bingqing Zhang, Xin Yu, Xue Li, Sen Wang,
- Abstract要約: SMR(Single-Moment Retrieval)に着目した既存のモーメント検索手法
これにより、既存のデータセットやメソッドがビデオの時間的グラウンドに不十分になる。
我々は、QVHighlights Multi-Moment dataset (QV-M$2$)と呼ばれる高品質なデータセットと、マルチモーメント検索(MMR)に適した新しい評価指標を導入する。
- 参考スコア(独自算出の注目度): 20.739538870657913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Moment retrieval (MR) methods focus on Single-Moment Retrieval (SMR). However, one query can correspond to multiple relevant moments in real-world applications. This makes the existing datasets and methods insufficient for video temporal grounding. By revisiting the gap between current MR tasks and real-world applications, we introduce a high-quality datasets called QVHighlights Multi-Moment Dataset (QV-M$^2$), along with new evaluation metrics tailored for multi-moment retrieval (MMR). QV-M$^2$ consists of 2,212 annotations covering 6,384 video segments. Building on existing efforts in MMR, we propose a framework called FlashMMR. Specifically, we propose a Multi-moment Post-verification module to refine the moment boundaries. We introduce constrained temporal adjustment and subsequently leverage a verification module to re-evaluate the candidate segments. Through this sophisticated filtering pipeline, low-confidence proposals are pruned, and robust multi-moment alignment is achieved. We retrain and evaluate 6 existing MR methods on QV-M$^2$ and QVHighlights under both SMR and MMR settings. Results show that QV-M$^2$ serves as an effective benchmark for training and evaluating MMR models, while FlashMMR provides a strong baseline. Specifically, on QV-M$^2$, it achieves improvements over prior SOTA method by 3.00% on G-mAP, 2.70% on mAP@3+tgt, and 2.56% on mR@3. The proposed benchmark and method establish a foundation for advancing research in more realistic and challenging video temporal grounding scenarios. Code is released at https://github.com/Zhuo-Cao/QV-M2.
- Abstract(参考訳): 既存のモーメント検索(MR)手法は、SMR(Single-Moment Retrieval)に焦点を当てている。
しかし、1つのクエリは、現実世界のアプリケーションで複数の関連するモーメントに対応できる。
これにより、既存のデータセットやメソッドがビデオの時間的グラウンドに不十分になる。
現在のMRタスクと実世界のアプリケーションとのギャップを再考することにより、マルチモーメント検索(MMR)に適した新しい評価指標とともに、QVHighlights Multi-Moment Dataset (QV-M$^2$)と呼ばれる高品質なデータセットを導入する。
QV-M$^2$は6,384のビデオセグメントをカバーする2,212のアノテーションからなる。
MMRにおける既存の取り組みに基づいて、FlashMMRと呼ばれるフレームワークを提案する。
具体的には,モーメント境界を改良するマルチモーメントポスト検証モジュールを提案する。
制約のある時間的調整を導入し、その後、検証モジュールを活用して候補セグメントを再評価する。
この洗練されたフィルタリングパイプラインを通じて、信頼性の低い提案を抽出し、堅牢なマルチモーメントアライメントを実現する。
我々は,SMRおよびMMR設定下において,QV-M$^2$およびQVHighlightsの既存のMR手法を再学習し,評価した。
その結果、QV-M$^2$はMMRモデルのトレーニングと評価に有効なベンチマークとなり、FlashMMRは強力なベースラインを提供することがわかった。
具体的には、QV-M$^2$では、G-mAPで3.00%、mAP@3+tgtで2.70%、mR@3で2.56%改善する。
提案手法は、より現実的で挑戦的なビデオ時間的グラウンドディングシナリオの研究を進めるための基盤を確立する。
コードはhttps://github.com/Zhuo-Cao/QV-M2で公開されている。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - TVR-Ranking: A Dataset for Ranked Video Moment Retrieval with Imprecise Queries [46.492091661862034]
我々は,ビデオのコレクションから,自然言語によるクエリを通じて,マッチングモーメント検索(RVMR)をランク付けするタスクを提案する。
我々は,TVRデータセットに提供される生のビデオと既存のモーメントアノテーションに基づいて,TVR-Rankingデータセットを開発した。
実験の結果、新しいRVMRタスクは既存のモデルに新たな課題をもたらし、このデータセットがマルチモーダリティ検索の研究に寄与していると信じている。
論文 参考訳(メタデータ) (2024-07-09T06:57:30Z) - Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering [19.351516992903697]
EmphMixture of Rationales (MoR) は、ゼロショット視覚的質問応答のための複数の論理を混合する新しいマルチモーダル推論手法である。
MoRはNLVR2では12.43%の精度向上、OKVQA-Sでは2.45%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-06-03T15:04:47Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval [47.665259947270336]
ビデオモーメント検索(VMR)の代替手段を提案する。
AxIoU は VMR 評価において 2 つの重要な公理を満たすことを示す。
また、AxIoUがR@$K,theta$とどのように一致しているかを実証的に検証し、テストデータや人手による時間境界の変化に対する安定性についても検討する。
論文 参考訳(メタデータ) (2022-03-30T05:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。