論文の概要: Selective Query-guided Debiasing for Video Corpus Moment Retrieval
- arxiv url: http://arxiv.org/abs/2210.08714v3
- Date: Sun, 13 Apr 2025 09:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:59.763761
- Title: Selective Query-guided Debiasing for Video Corpus Moment Retrieval
- Title(参考訳): ビデオコーパスモーメント検索のための選択型クエリ誘導型デバイアス
- Authors: Sunjae Yoon, Ji Woo Hong, Eunseop Yoon, Dahyun Kim, Junyeong Kim, Hee Suk Yoon, Chang D. Yoo,
- Abstract要約: ビデオモーメント検索は、与えられたテキストクエリに関連する未編集ビデオのターゲットモーメントをローカライズすることを目的としている。
既存の検索システムは、ショートカットとして検索バイアスに依存する傾向にある。
選択型クエリ誘導型デバイアスネットワーク(SQuiDNet)を提案する。
- 参考スコア(独自算出の注目度): 28.739889161193037
- License:
- Abstract: Video moment retrieval (VMR) aims to localize target moments in untrimmed videos pertinent to a given textual query. Existing retrieval systems tend to rely on retrieval bias as a shortcut and thus, fail to sufficiently learn multi-modal interactions between query and video. This retrieval bias stems from learning frequent co-occurrence patterns between query and moments, which spuriously correlate objects (e.g., a pencil) referred in the query with moments (e.g., scene of writing with a pencil) where the objects frequently appear in the video, such that they converge into biased moment predictions. Although recent debiasing methods have focused on removing this retrieval bias, we argue that these biased predictions sometimes should be preserved because there are many queries where biased predictions are rather helpful. To conjugate this retrieval bias, we propose a Selective Query-guided Debiasing network (SQuiDNet), which incorporates the following two main properties: (1) Biased Moment Retrieval that intentionally uncovers the biased moments inherent in objects of the query and (2) Selective Query-guided Debiasing that performs selective debiasing guided by the meaning of the query. Our experimental results on three moment retrieval benchmarks (i.e., TVR, ActivityNet, DiDeMo) show the effectiveness of SQuiDNet and qualitative analysis shows improved interpretability.
- Abstract(参考訳): ビデオモーメント検索(VMR)は、あるテキストクエリに関連する未編集ビデオのターゲットモーメントをローカライズすることを目的としている。
既存の検索システムは、検索バイアスをショートカットとして依存する傾向があるため、クエリとビデオ間のマルチモーダルな相互作用を十分に学習することができない。
この検索バイアスは、クエリーとモーメント間の頻繁な共起パターンを学習することに由来するもので、クエリーで参照されるオブジェクト(例えば鉛筆)と、ビデオに頻繁に現れるモーメント(例えば鉛筆で書くシーン)を相互に関連付け、バイアスのあるモーメント予測に収束させる。
近年のデバイアス法は,この検索バイアスの除去に重点を置いているが,バイアス予測がより有用であるクエリが多数存在するため,これらのバイアス予測は保存されるべきであると論じている。
この検索バイアスを共役するために,(1)クエリのオブジェクトに固有のバイアスモーメントを意図的に発見するバイアスモーメント検索,(2)クエリの意味によって誘導される選択的デバイアスを行う選択型クエリ誘導デバイアスネットワーク(SQuiDNet)を提案する。
3つのモーメント検索ベンチマーク(TVR, ActivityNet, DiDeMo)の実験結果から, SQuiDNetの有効性が示され, 質的解析により解釈性が向上した。
関連論文リスト
- Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval [23.625455539458606]
Video Moment Retrievalは、視覚言語モデルの性能を評価するための一般的なタスクである。
我々は、モーメント検索精度と負のクエリ拒否精度の両方を考慮した負対応ビデオモーメント検索(NA-VMR)の課題を提案する。
我々は,現在のSOTAビデオモーメント検索手法が負認識ビデオモーメント検索に適応する可能性を分析し,NA-VMRに対応するために設計されたUniVTG-NAを提案する。
論文 参考訳(メタデータ) (2025-02-12T16:28:21Z) - The Devil is in the Spurious Correlation: Boosting Moment Retrieval via Temporal Dynamic Learning [23.357772759438806]
本稿では,モーメント検索のための時間動的学習手法を提案する。
提案手法は,モーメント検索,QVHighlights,Charades-STAの2つの一般的なベンチマークに対して,新しい最先端性能を確立する。
論文 参考訳(メタデータ) (2025-01-13T13:13:06Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Uncovering Hidden Challenges in Query-Based Video Moment Retrieval [29.90001703587512]
我々は,モーメント検索タスクの真の進歩を,ベンチマーク結果がどの程度よく反映しているかを評価する一連の実験を提示する。
この結果は、一般的なデータセットのかなりのバイアスと、最先端モデルの予期せぬ振る舞いを示している。
今後,時間文の接頭辞を改善するための方策を提案する。
論文 参考訳(メタデータ) (2020-09-01T10:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。