論文の概要: Interventional Video Grounding with Dual Contrastive Learning
- arxiv url: http://arxiv.org/abs/2106.11013v1
- Date: Mon, 21 Jun 2021 12:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 22:27:29.021172
- Title: Interventional Video Grounding with Dual Contrastive Learning
- Title(参考訳): 二重コントラスト学習による介入型ビデオグラウンディング
- Authors: Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei
Lu
- Abstract要約: ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
- 参考スコア(独自算出の注目度): 16.0734337895897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video grounding aims to localize a moment from an untrimmed video for a given
textual query. Existing approaches focus more on the alignment of visual and
language stimuli with various likelihood-based matching or regression
strategies, i.e., P(Y|X). Consequently, these models may suffer from spurious
correlations between the language and video features due to the selection bias
of the dataset. 1) To uncover the causality behind the model and data, we first
propose a novel paradigm from the perspective of the causal inference, i.e.,
interventional video grounding (IVG) that leverages backdoor adjustment to
deconfound the selection bias based on structured causal model (SCM) and
do-calculus P(Y|do(X)). Then, we present a simple yet effective method to
approximate the unobserved confounder as it cannot be directly sampled from the
dataset. 2) Meanwhile, we introduce a dual contrastive learning approach (DCL)
to better align the text and video by maximizing the mutual information (MI)
between query and video clips, and the MI between start/end frames of a target
moment and the others within a video to learn more informative visual
representations. Experiments on three standard benchmarks show the
effectiveness of our approaches.
- Abstract(参考訳): video groundingは、特定のテキストクエリのために、未検索の動画から瞬間をローカライズすることを目的としている。
既存のアプローチは、様々な可能性ベースのマッチングや回帰戦略、すなわちP(Y|X)との視覚的刺激と言語刺激のアライメントに焦点を当てている。
その結果、これらのモデルは、データセットの選択バイアスにより、言語とビデオの特徴の間に急激な相関が生じる可能性がある。
1) モデルとデータの背後にある因果関係を明らかにするために,まず, バックドア調整を利用して, 構造的因果モデル(SCM)とdo-calculus P(Y|do(X))に基づいて選択バイアスを分解する介入ビデオグラウンドディング(IVG)という, 因果推論の観点から, 新たなパラダイムを提案する。
そして、データセットから直接サンプリングできないため、観測されていない共同創設者を近似する単純で効果的な方法を提案する。
2) 検索とビデオクリップ間の相互情報(MI)を最大化してテキストとビデオの整合性を向上する2つのコントラスト学習手法 (DCL) を導入し, 対象モーメントの開始/終了フレームと映像内の他のフレーム間のMIを用いて, より情報的な視覚表現を学習する。
3つの標準ベンチマークの実験は、我々のアプローチの有効性を示している。
関連論文リスト
- Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。