論文の概要: Retrieving Any Relevant Moments: Benchmark and Models for Generalized Moment Retrieval
- arxiv url: http://arxiv.org/abs/2605.02623v1
- Date: Mon, 04 May 2026 14:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.324969
- Title: Retrieving Any Relevant Moments: Benchmark and Models for Generalized Moment Retrieval
- Title(参考訳): 関連モーメントの検索: 一般化モーメント検索のためのベンチマークとモデル
- Authors: Yiming Ding, Siyu Cao, Luyuan Jiao, Yixuan Li, Zitong Wang, Zhiyong Liu, Lu Zhang,
- Abstract要約: ビデオモーメント検索(VMR)は、自然言語クエリに対応するビデオに時間セグメントをローカライズすることを目的としている。
一般化モーメント検索 (Generalized Moment Retrieval, GMR) は、関連するモーメントの完全集合の検索や空集合の予測を必要とする統一的な設定である。
- 参考スコア(独自算出の注目度): 19.282238910961734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Moment Retrieval (VMR) aims to localize temporal segments in videos that correspond to a natural language query, but typically assumes only a single matching moment for each query. This assumption does not always hold in real-world scenarios, where queries may correspond to multiple or no moments. Thus, we formulate Generalized Moment Retrieval (GMR), a unified setting that requires retrieving the complete set of relevant moments or predicting an empty set. To enable systematic study of GMR, we introduce Soccer-GMR, a large-scale benchmark built on challenging soccer videos that reflect general GMR scenarios, with realistic negative and positive queries. The benchmark is constructed via a duration-flexible semi-automated pipeline with human verification, enabling scalable data generation while maintaining high annotation quality. We further design a unified evaluation protocol with complementary metrics tailored for null-set rejection, positive-query localization, and end-to-end GMR performance. Finally, we establish strong baselines across two modeling paradigms: a lightweight plug-and-play GMR adapter for discriminative VMR models, and a GMR-tailored GRPO reward for fine-tuning multimodal large language models (MLLMs). Extensive experiments show consistent gains across all metrics and expose key limitations of current methods, positioning GMR as a more realistic and challenging benchmark for video-language understanding.
- Abstract(参考訳): Video Moment Retrieval (VMR) は、自然言語クエリに対応するビデオ内の時間セグメントをローカライズすることを目的としている。
この仮定は、クエリが複数の、あるいは全くの瞬間に対応するような現実世界のシナリオでは、常に成り立たない。
このようにして、一般化モーメント検索 (GMR) を定式化する。これは、関連するモーメントの完全な集合を検索したり、空集合を予測することを必要とする統一的な設定である。
GMRの体系的な研究を可能にするために,一般的なGMRシナリオを反映し,現実的な否定的,肯定的なクエリを備えた,サッカービデオに挑戦する大規模ベンチマークであるFloco-GMRを紹介した。
このベンチマークは、人間による検証と、高いアノテーション品質を維持しながらスケーラブルなデータ生成を可能にする、持続的フレキシブルな半自動パイプラインによって構築されている。
さらに、Null-setの拒絶、正のクエリのローカライゼーション、エンドツーエンドのGMRパフォーマンスに適した相補的なメトリクスを持つ統一評価プロトコルを設計する。
最後に、識別型VMRモデルのための軽量なプラグアンドプレイGMRアダプタと、微調整型マルチモーダル言語モデル(MLLM)のためのGMR調整GRPO報酬という、2つのモデリングパラダイムにまたがる強力なベースラインを確立する。
大規模な実験では、すべてのメトリクスが一貫したゲインを示し、現在のメソッドの重要な制限を明らかにし、GMRをビデオ言語理解のためのより現実的で挑戦的なベンチマークとして位置付けている。
関連論文リスト
- Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline [58.585692088008905]
MM-Lifelongはマルチモーダルライフロング理解のために設計されたデータセットである。
撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
論文 参考訳(メタデータ) (2026-03-05T18:52:12Z) - Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。
製品ドメインは、上着と下着、宝石、靴、家具の5つ。
MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-01T12:53:47Z) - MMGRid: Navigating Temporal-aware and Cross-domain Generative Recommendation via Model Merging [22.681048070167765]
ジェネレーティブレコメンデーション(GR)はレコメンデーションシステム(RS)の新しいパラダイムとして登場した。
私たちは、現実世界のさまざまな文脈に特化して、生成的推奨者をマージする方法という、現実の世界における根本的な、未解明の課題に焦点を合わせます。
本稿では,さまざまなコンテキスト下で訓練されたモデルを整理する,GRチェックポイントの構造化されたコンテキストグリッドであるMMGRidを提案する。
論文 参考訳(メタデータ) (2026-01-22T13:09:16Z) - Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。