論文の概要: Beyond Caption-Based Queries for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2603.02363v1
- Date: Mon, 02 Mar 2026 20:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.530821
- Title: Beyond Caption-Based Queries for Video Moment Retrieval
- Title(参考訳): ビデオモーメント検索のためのキャプションベースのクエリを超えて
- Authors: David Pujol-Perich, Albert Clapés, Dima Damen, Sergio Escalera, Michael Wray,
- Abstract要約: キャプションベースのクエリでトレーニングしたVMR手法の劣化について検討するが,検索クエリで評価した。
3つのパブリックVMRデータセットでテキストクエリを変更することで、3つのベンチマークを導入する。
提案手法は,検索クエリの性能を最大14.82% mAP_m,マルチモーメント検索クエリ最大21.83% mAP_mで改善する。
- 参考スコア(独自算出の注目度): 60.31221310786333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigate the degradation of existing VMR methods, particularly of DETR architectures, when trained on caption-based queries but evaluated on search queries. For this, we introduce three benchmarks by modifying the textual queries in three public VMR datasets -- i.e., HD-EPIC, YouCook2 and ActivityNet-Captions. Our analysis reveals two key generalization challenges: (i) A language gap, arising from the linguistic under-specification of search queries, and (ii) a multi-moment gap, caused by the shift from single-moment to multi-moment queries. We also identify a critical issue in these architectures -- an active decoder-query collapse -- as a primary cause of the poor generalization to multi-moment instances. We mitigate this issue with architectural modifications that effectively increase the number of active decoder queries. Extensive experiments demonstrate that our approach improves performance on search queries by up to 14.82% mAP_m, and up to 21.83% mAP_m on multi-moment search queries. The code, models and data are available in the project webpage: https://davidpujol.github.io/beyond-vmr/
- Abstract(参考訳): 本研究では,既存のVMR手法,特にDETRアーキテクチャの劣化について,キャプションベースのクエリでトレーニングするが,検索クエリで評価する。
このために、我々は3つのVMRデータセット(HD-EPIC、YouCook2、ActivityNet-Captions)でテキストクエリを変更することで、3つのベンチマークを導入しました。
我々の分析は2つの重要な一般化課題を明らかにしている。
一 検索クエリの言語的過小評価から生じる言語ギャップ及び
(ii)単一モーメントクエリからマルチモーメントクエリへのシフトに起因するマルチモーメントギャップ。
また、これらのアーキテクチャにおける重要な問題として、アクティブなデコーダ-クエリの崩壊が、マルチモーメントインスタンスへの一般化の欠如の主な原因であることも確認しています。
この問題を、アクティブデコーダクエリの数を効果的に増加させるアーキテクチャ変更で軽減します。
大規模な実験により,マルチモーメント検索クエリでは最大14.82% mAP_m,最大21.83% mAP_mの性能が向上した。
コード、モデル、データはプロジェクトのWebページで公開されている。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Dual-Stream Attention with Multi-Modal Queries for Object Detection in Transportation Applications [6.603505460200282]
トランスフォーマーをベースとしたオブジェクト検出器は、固定されたクエリと集中的な注意によって引き起こされるオクルージョン、きめ細かなローカライゼーション、計算の非効率に苦しむことが多い。
我々は,クエリ適応と構造化されたクロスアテンションの両方を導入し,精度と効率を向上させるための新しいフレームワークである,マルチモーダルクエリを用いたDAMM,デュアルストリームアテンションを提案する。
論文 参考訳(メタデータ) (2025-08-06T20:37:24Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - An Evaluation Framework for Attributed Information Retrieval using Large Language Models [5.216296688442701]
本稿では,属性情報検索の評価とベンチマークを行うフレームワークを提案する。
属性付き情報探索データセットであるHAGRIDを用いた実験では、さまざまなシナリオが回答の正しさと帰属性に与える影響が示されている。
論文 参考訳(メタデータ) (2024-09-12T12:57:08Z) - Database-Augmented Query Representation for Information Retrieval [71.41745087624528]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
我々はDAQuを多様な検索シナリオで検証し、全体の検索性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。