論文の概要: See, Rank, and Filter: Important Word-Aware Clip Filtering via Scene Understanding for Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2511.22906v1
- Date: Fri, 28 Nov 2025 06:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.786671
- Title: See, Rank, and Filter: Important Word-Aware Clip Filtering via Scene Understanding for Moment Retrieval and Highlight Detection
- Title(参考訳): See, Rank, and Filter:Moment Retrieval and Highlight Detectionのためのシーン理解による重要な単語認識クリップフィルタ
- Authors: YuEun Lee, Jung Uk Kim,
- Abstract要約: 自然言語クエリによるビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオクリップ内の関連モーメントとキーハイライトをローカライズすることを目的としている。
既存の方法は個々の単語の重要性を軽視し、テキストクエリ全体とビデオクリップをブラックボックスとして扱う。
クエリにおいて重要な単語を識別・優先順位付けすることで、きめ細かいクリップフィルタリングを可能にする新しい手法を提案する。
- 参考スコア(独自算出の注目度): 21.187420225759183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video moment retrieval (MR) and highlight detection (HD) with natural language queries aim to localize relevant moments and key highlights in a video clips. However, existing methods overlook the importance of individual words, treating the entire text query and video clips as a black-box, which hinders contextual understanding. In this paper, we propose a novel approach that enables fine-grained clip filtering by identifying and prioritizing important words in the query. Our method integrates image-text scene understanding through Multimodal Large Language Models (MLLMs) and enhances the semantic understanding of video clips. We introduce a feature enhancement module (FEM) to capture important words from the query and a ranking-based filtering module (RFM) to iteratively refine video clips based on their relevance to these important words. Extensive experiments demonstrate that our approach significantly outperforms existing state-of-the-art methods, achieving superior performance in both MR and HD tasks. Our code is available at: https://github.com/VisualAIKHU/SRF.
- Abstract(参考訳): 自然言語クエリによるビデオモーメント検索(MR)とハイライト検出(HD)は、ビデオクリップ内の関連モーメントとキーハイライトをローカライズすることを目的としている。
しかし、既存の手法は個々の単語の重要性を軽視し、テキストクエリとビデオクリップ全体をブラックボックスとして扱い、文脈的理解を妨げている。
本稿では,クエリにおける重要な単語を識別・優先順位付けすることで,きめ細かなクリップフィルタリングを可能にする新しい手法を提案する。
本稿では,MLLM(Multimodal Large Language Models)による画像テキストのシーン理解を統合し,ビデオクリップのセマンティック理解を強化する。
本稿では,これらの重要な単語に対する関連性に基づいて,検索から重要な単語を抽出する機能拡張モジュール (FEM) と,ビデオクリップを反復的に洗練するランキングベースフィルタリングモジュール (RFM) を導入する。
大規模な実験により,本手法は既存の最先端手法を著しく上回り,MRタスクとHDタスクの両方において優れた性能を発揮することが示された。
私たちのコードは、https://github.com/VisualAIKHU/SRF.comで利用可能です。
関連論文リスト
- Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Watch Video, Catch Keyword: Context-aware Keyword Attention for Moment Retrieval and Highlight Detection [14.801564966406486]
ビデオモーメント検索とハイライト検出の目標は、与えられたテキストクエリに基づいて特定のセグメントとハイライトを特定することである。
この制限を克服する新しいビデオコンテキスト対応キーワードアテンションモジュールを提案する。
視覚的特徴とテキスト的特徴の微妙なアライメントを高めるために,キーワード認識型コントラスト学習を用いたキーワード重み検出モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-05T11:01:27Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。