論文の概要: Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2306.02728v2
- Date: Mon, 20 Nov 2023 02:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:17:48.438748
- Title: Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval
- Title(参考訳): 映像モーメント検索における弱視テキストアライメントの克服
- Authors: Minjoon Jung, Youwon Jang, Seongho Choi, Joochan Kim, Jin-Hwa Kim,
Byoung-Tak Zhang
- Abstract要約: ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
このタスクは、ビデオデータセットに固有の視覚・テクスチャアライメントの弱い問題に悩まされる傾向にある。
背景認識型モーメント検出変換器(BM-DETR)を提案する。
本モデルでは,正の問合せと負の問合せの相補性から,各フレームの連成確率から目標モーメントを予測することを学ぶ。
- 参考スコア(独自算出の注目度): 20.254815143604777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval (VMR) identifies a specific moment in an untrimmed
video for a given natural language query. This task is prone to suffer the weak
visual-textual alignment problem innate in video datasets. Due to the
ambiguity, a query does not fully cover the relevant details of the
corresponding moment, or the moment may contain misaligned and irrelevant
frames, potentially limiting further performance gains. To tackle this problem,
we propose a background-aware moment detection transformer (BM-DETR). Our model
adopts a contrastive approach, carefully utilizing the negative queries matched
to other moments in the video. Specifically, our model learns to predict the
target moment from the joint probability of each frame given the positive query
and the complement of negative queries. This leads to effective use of the
surrounding background, improving moment sensitivity and enhancing overall
alignments in videos. Extensive experiments on four benchmarks demonstrate the
effectiveness of our approach.
- Abstract(参考訳): ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定する。
このタスクは、ビデオデータセットに固有の視覚・テキストアライメントの弱い問題に悩まされる傾向がある。
あいまいさのため、クエリが対応するモーメントの関連する詳細を完全にカバーしていない場合や、モーメントが不一致で無関係なフレームを含む場合があり、さらなるパフォーマンス向上が制限される可能性がある。
そこで本研究では,背景認識型モーメント検出トランス (BM-DETR) を提案する。
我々のモデルは、ビデオ内の他の瞬間にマッチする負のクエリを慎重に利用し、対照的なアプローチを採用する。
具体的には、正の問合せと負の問合せの補間が与えられた各フレームの結合確率から目標モーメントを予測することを学ぶ。
これにより、周囲の背景が効果的に利用され、モーメントの感度が向上し、ビデオ全体のアライメントが向上する。
4つのベンチマークでの大規模な実験は、我々のアプローチの有効性を示している。
関連論文リスト
- Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval [23.625455539458606]
Video Moment Retrievalは、視覚言語モデルの性能を評価するための一般的なタスクである。
我々は、モーメント検索精度と負のクエリ拒否精度の両方を考慮した負対応ビデオモーメント検索(NA-VMR)の課題を提案する。
我々は,現在のSOTAビデオモーメント検索手法が負認識ビデオモーメント検索に適応する可能性を分析し,NA-VMRに対応するために設計されたUniVTG-NAを提案する。
論文 参考訳(メタデータ) (2025-02-12T16:28:21Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。