論文の概要: Boosting Temporal Sentence Grounding via Causal Inference
- arxiv url: http://arxiv.org/abs/2507.04958v1
- Date: Mon, 07 Jul 2025 13:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.425313
- Title: Boosting Temporal Sentence Grounding via Causal Inference
- Title(参考訳): 因果推論による時間文接地促進
- Authors: Kefan Tang, Lihuo He, Jisheng Dang, Xinbo Gao,
- Abstract要約: テンポラル・センテンス・グラウンディング(Temporal Sentence Grounding)は、あるテキストクエリに意味的に対応するビデオ中の関連モーメントを特定することを目的としている。
これらの素因的相関は,(1) 特定の動詞や句の頻繁な共起など,テキストデータに固有の偏り,(2) ビデオコンテンツにおける顕著なパターンや反復パターンに過度に適合する傾向,の2つの要因から生じる。
本稿では, 因果推論を利用した新たなTSGフレームワーク, 因果介入, 反ファクト推論を提案する。
- 参考スコア(独自算出の注目度): 48.04297516212874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Sentence Grounding (TSG) aims to identify relevant moments in an untrimmed video that semantically correspond to a given textual query. Despite existing studies having made substantial progress, they often overlook the issue of spurious correlations between video and textual queries. These spurious correlations arise from two primary factors: (1) inherent biases in the textual data, such as frequent co-occurrences of specific verbs or phrases, and (2) the model's tendency to overfit to salient or repetitive patterns in video content. Such biases mislead the model into associating textual cues with incorrect visual moments, resulting in unreliable predictions and poor generalization to out-of-distribution examples. To overcome these limitations, we propose a novel TSG framework, causal intervention and counterfactual reasoning that utilizes causal inference to eliminate spurious correlations and enhance the model's robustness. Specifically, we first formulate the TSG task from a causal perspective with a structural causal model. Then, to address unobserved confounders reflecting textual biases toward specific verbs or phrases, a textual causal intervention is proposed, utilizing do-calculus to estimate the causal effects. Furthermore, visual counterfactual reasoning is performed by constructing a counterfactual scenario that focuses solely on video features, excluding the query and fused multi-modal features. This allows us to debias the model by isolating and removing the influence of the video from the overall effect. Experiments on public datasets demonstrate the superiority of the proposed method. The code is available at https://github.com/Tangkfan/CICR.
- Abstract(参考訳): テンポラル・センテンス・グラウンドディング(TSG)は、与えられたテキストクエリに意味的に対応する未編集ビデオ中の関連モーメントを特定することを目的としている。
既存の研究は大きな進歩を遂げたものの、ビデオとテキストのクエリ間の急激な相関の問題を見落としていることが多い。
これらの素因的相関は,(1) 特定の動詞や句の頻繁な共起など,テキストデータに固有の偏り,(2) ビデオコンテンツにおける顕著なパターンや反復パターンに過度に適合する傾向,の2つの要因から生じる。
このようなバイアスは、モデルを誤った視覚的モーメントに関連付け、信頼性の低い予測と配布外例への一般化の欠如を招いた。
これらの制約を克服するために,因果推論を利用した新たなTSGフレームワーク,因果的介入,反ファクト的推論を提案して,突発的な相関を排除し,モデルの堅牢性を高める。
具体的には、まず、構造的因果モデルを用いて、因果的観点からTSGタスクを定式化する。
そして、特定の動詞や句に対するテキストバイアスを反映する未保存な共同創設者に対処するために、do-calculusを用いて因果効果を推定するテキスト因果介入を提案する。
さらに、クエリと融合したマルチモーダル機能を除いて、ビデオ機能のみに焦点を絞った対物シナリオを構築することで、視覚的対物推論を行う。
これにより、全体的な効果からビデオの影響を分離して取り除くことで、モデルを疎外することができる。
公開データセットの実験は,提案手法の優位性を実証している。
コードはhttps://github.com/Tangkfan/CICRで公開されている。
関連論文リスト
- Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。