論文の概要: Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2306.02728v1
- Date: Mon, 5 Jun 2023 09:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:01:24.513306
- Title: Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval
- Title(参考訳): 映像モーメント検索における弱視テキストアライメントの克服
- Authors: Minjoon Jung, Youwon Jang, Seongho Choi, Joochan Kim, Jin-Hwa Kim,
Byoung-Tak Zhang
- Abstract要約: ビデオモーメント検索(VMR)は、与えられた自然言語クエリの未トリミングビデオ中の特定のモーメントを特定することを目的としている。
背景対応モーメント検出TRansformer (BM-DETR) と呼ばれるモデルを提案する。
本モデルでは,与えられたクエリの結合確率と,各候補フレームに対する負のクエリの補間から,対象モーメントを予測することを学習する。
- 参考スコア(独自算出の注目度): 19.73089987556097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval (VMR) aims to identify the specific moment in an
untrimmed video for a given natural language query. However, this task is prone
to suffer the weak visual-textual alignment problem from query ambiguity,
potentially limiting further performance gains and generalization capability.
Due to the complex multimodal interactions in videos, a query may not fully
cover the relevant details of the corresponding moment, and the moment may
contain misaligned and irrelevant frames. To tackle this problem, we propose a
straightforward yet effective model, called Background-aware Moment DEtection
TRansformer (BM-DETR). Given a target query and its moment, BM-DETR also takes
negative queries corresponding to different moments. Specifically, our model
learns to predict the target moment from the joint probability of the given
query and the complement of negative queries for each candidate frame. In this
way, it leverages the surrounding background to consider relative importance,
improving moment sensitivity. Extensive experiments on Charades-STA and
QVHighlights demonstrate the effectiveness of our model. Moreover, we show that
BM-DETR can perform robustly in three challenging VMR scenarios, such as
several out-of-distribution test cases, demonstrating superior generalization
ability.
- Abstract(参考訳): video moment retrieval (vmr) は、特定の自然言語クエリの未検索ビデオ内の特定のモーメントを識別することを目的としている。
しかし、このタスクはクエリのあいまいさから、視覚とテキストのアライメントの弱い問題に苦しむ傾向にあり、さらなるパフォーマンス向上と一般化能力を制限する可能性がある。
ビデオにおける複雑なマルチモーダル相互作用のため、クエリは対応するモーメントの関連する詳細を完全にカバーすることができず、モーメントには不整合および無関係なフレームが含まれる。
そこで本研究では,背景認識型モーメント検出TRansformer (BM-DETR) という,単純かつ効果的なモデルを提案する。
ターゲットクエリとその瞬間が与えられた場合、BM-DETRは異なるモーメントに対応する負のクエリも取る。
具体的には,与えられた問合せの確率と候補フレーム毎の負の問合せの補足から目標モーメントを予測することを学ぶ。
このように、周囲の背景を活用して相対的な重要性を考慮し、モーメント感度を向上させる。
Charades-STAとQVHighlightsの大規模な実験は、我々のモデルの有効性を実証している。
さらに, BM-DETRは, 3つの難解なVMRシナリオにおいて, いくつかのアウト・オブ・ディストリビューションテストケースにおいて, より優れた一般化能力を示すことができることを示す。
関連論文リスト
- Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool [24.858928681280634]
Video Corpus Moment Retrieval (VCMR)は、複数のビデオから与えられた自然言語クエリにマッチするビデオモーメントを検出することを目的としている。
既存のVCMR研究では、特定のクエリと組み合わせていないすべてのビデオは否定的であると見なされている。
ビデオフレームを大規模なビデオ集合内にローカライズすることを目的としたMVMRタスクを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。