論文の概要: Watch Video, Catch Keyword: Context-aware Keyword Attention for Moment Retrieval and Highlight Detection
- arxiv url: http://arxiv.org/abs/2501.02504v1
- Date: Sun, 05 Jan 2025 11:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:57.764909
- Title: Watch Video, Catch Keyword: Context-aware Keyword Attention for Moment Retrieval and Highlight Detection
- Title(参考訳): ビデオ、キャッチキー:モメント検索とハイライト検出のためのコンテキスト対応キーワードアテンション
- Authors: Sung Jin Um, Dongjin Kim, Sangmin Lee, Jung Uk Kim,
- Abstract要約: ビデオモーメント検索とハイライト検出の目標は、与えられたテキストクエリに基づいて特定のセグメントとハイライトを特定することである。
この制限を克服する新しいビデオコンテキスト対応キーワードアテンションモジュールを提案する。
視覚的特徴とテキスト的特徴の微妙なアライメントを高めるために,キーワード認識型コントラスト学習を用いたキーワード重み検出モジュールを提案する。
- 参考スコア(独自算出の注目度): 14.801564966406486
- License:
- Abstract: The goal of video moment retrieval and highlight detection is to identify specific segments and highlights based on a given text query. With the rapid growth of video content and the overlap between these tasks, recent works have addressed both simultaneously. However, they still struggle to fully capture the overall video context, making it challenging to determine which words are most relevant. In this paper, we present a novel Video Context-aware Keyword Attention module that overcomes this limitation by capturing keyword variation within the context of the entire video. To achieve this, we introduce a video context clustering module that provides concise representations of the overall video context, thereby enhancing the understanding of keyword dynamics. Furthermore, we propose a keyword weight detection module with keyword-aware contrastive learning that incorporates keyword information to enhance fine-grained alignment between visual and textual features. Extensive experiments on the QVHighlights, TVSum, and Charades-STA benchmarks demonstrate that our proposed method significantly improves performance in moment retrieval and highlight detection tasks compared to existing approaches. Our code is available at: https://github.com/VisualAIKHU/Keyword-DETR
- Abstract(参考訳): ビデオモーメント検索とハイライト検出の目標は、与えられたテキストクエリに基づいて特定のセグメントとハイライトを特定することである。
映像コンテンツの急速な増加とこれらのタスク間の重複により、近年の作業は両立している。
しかし、ビデオ全体のコンテキストをフルに捉えるのに苦労しているため、どの単語が最も関連性があるかを判断することは難しい。
本稿では,ビデオ全体のコンテキスト内でキーワードの変化をキャプチャすることで,この制限を克服する新しいビデオコンテキスト対応キーワードアテンションモジュールを提案する。
これを実現するために,ビデオコンテキスト全体の簡潔な表現を提供するビデオコンテキストクラスタリングモジュールを導入し,キーワードダイナミクスの理解を深める。
さらに,キーワード情報を組み込んで,視覚的特徴とテキスト的特徴の微妙なアライメントを高めるキーワード認識コントラスト学習を備えたキーワード重み検出モジュールを提案する。
QVHighlights, TVSum, および Charades-STA ベンチマークの広範囲な実験により,提案手法はモーメント検索の性能を大幅に向上し, 既存の手法と比較して検出タスクの強調を行うことを示した。
私たちのコードは、https://github.com/VisualAIKHU/Keyword-DETRで利用可能です。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。