論文の概要: Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization
- arxiv url: http://arxiv.org/abs/2308.05648v2
- Date: Sat, 14 Oct 2023 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:09:37.248738
- Title: Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization
- Title(参考訳): 弱教師付きビデオモーメント定位のための反事実的クロスモダリティ推論
- Authors: Zezhong Lv, Bing Su, Ji-Rong Wen
- Abstract要約: ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
- 参考スコア(独自算出の注目度): 67.88493779080882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment localization aims to retrieve the target segment of an untrimmed
video according to the natural language query. Weakly supervised methods gains
attention recently, as the precise temporal location of the target segment is
not always available. However, one of the greatest challenges encountered by
the weakly supervised method is implied in the mismatch between the video and
language induced by the coarse temporal annotations. To refine the
vision-language alignment, recent works contrast the cross-modality
similarities driven by reconstructing masked queries between positive and
negative video proposals. However, the reconstruction may be influenced by the
latent spurious correlation between the unmasked and the masked parts, which
distorts the restoring process and further degrades the efficacy of contrastive
learning since the masked words are not completely reconstructed from the
cross-modality knowledge. In this paper, we discover and mitigate this spurious
correlation through a novel proposed counterfactual cross-modality reasoning
method. Specifically, we first formulate query reconstruction as an aggregated
causal effect of cross-modality and query knowledge. Then by introducing
counterfactual cross-modality knowledge into this aggregation, the spurious
impact of the unmasked part contributing to the reconstruction is explicitly
modeled. Finally, by suppressing the unimodal effect of masked query, we can
rectify the reconstructions of video proposals to perform reasonable
contrastive learning. Extensive experimental evaluations demonstrate the
effectiveness of our proposed method. The code is available at
\href{https://github.com/sLdZ0306/CCR}{https://github.com/sLdZ0306/CCR}.
- Abstract(参考訳): ビデオモーメントローカライゼーションは、自然言語クエリに従って、未トリミングビデオのターゲットセグメントを検索することを目的としている。
ターゲットセグメントの正確な時間的位置が常に利用できるとは限らないため、弱い教師付き手法が最近注目を集めている。
しかし、弱教師付き手法が直面する最大の課題の一つは、粗い時間的アノテーションによって引き起こされるビデオと言語間のミスマッチである。
視覚言語アライメントを洗練するために、最近の研究は、ポジティブなビデオ提案とネガティブなビデオ提案の間のマスクされたクエリを再構築することで引き起こされる、相互モダリティの類似性を対比している。
しかし、この再構成は、マスク付き単語がクロスモーダル知識から完全に再構成されるわけではないため、復元過程を歪曲し、コントラスト学習の有効性を低下させる、マスク付き部分とマスク付き部分との潜伏的な相関に影響される可能性がある。
本稿では,提案する反事実的相互モダリティ推論法を用いて,このスプリアス相関を発見・緩和する。
具体的には、クロスモーダル性とクエリ知識の集約因果効果として、クエリ再構築を初めて定式化する。
そして, このアグリゲーションに反事実的相互モダリティ知識を導入することにより, 再建に寄与する未完成部分の急激な影響をモデル化する。
最後に,マスククエリによる一助効果を抑えることにより,ビデオ提案の再構成を補正し,合理的なコントラスト学習を行う。
提案手法の有効性を実験的に検証した。
コードは \href{https://github.com/sldz0306/ccr}{https://github.com/sldz0306/ccr} で入手できる。
関連論文リスト
- SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Human Video Translation via Query Warping [38.9185553719231]
本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを紹介する。
外観フローを使用して、前のフレームのクエリトークンをワープし、現在のフレームのクエリと整合させます。
このクエリワープは、自己アテンション層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。
論文 参考訳(メタデータ) (2024-02-19T12:28:45Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Dynamic Facial Expression Recognition under Partial Occlusion with
Optical Flow Reconstruction [20.28462460359439]
本研究では,光フロー領域における顔面の閉塞部分を再構成するためのスキップ接続を備えた自動エンコーダに基づく新しいソリューションを提案する。
提案手法は,オクルード状態と非オクルード状態の間における認識精度の差を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-12-24T12:28:47Z) - Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment
Retrieval in Videos [108.55320735031721]
ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。
既存の弱監督手法の多くは、MILベースのフレームワークをサンプル間対決の開発に適用している。
本稿では,サンプル間およびサンプル内対立を同時に検討するための,正規化された2分岐提案ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T04:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。