論文の概要: Weakly-Supervised Video Object Grounding via Causal Intervention
- arxiv url: http://arxiv.org/abs/2112.00475v1
- Date: Wed, 1 Dec 2021 13:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:29:40.306882
- Title: Weakly-Supervised Video Object Grounding via Causal Intervention
- Title(参考訳): 因果的介入による弱教師付き映像物体の接地
- Authors: Wei Wang, Junyu Gao, Changsheng Xu
- Abstract要約: 我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
- 参考スコア(独自算出の注目度): 82.68192973503119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We target at the task of weakly-supervised video object grounding (WSVOG),
where only video-sentence annotations are available during model learning. It
aims to localize objects described in the sentence to visual regions in the
video, which is a fundamental capability needed in pattern analysis and machine
learning. Despite the recent progress, existing methods all suffer from the
severe problem of spurious association, which will harm the grounding
performance. In this paper, we start from the definition of WSVOG and pinpoint
the spurious association from two aspects: (1) the association itself is not
object-relevant but extremely ambiguous due to weak supervision, and (2) the
association is unavoidably confounded by the observational bias when taking the
statistics-based matching strategy in existing methods. With this in mind, we
design a unified causal framework to learn the deconfounded object-relevant
association for more accurate and robust video object grounding. Specifically,
we learn the object-relevant association by causal intervention from the
perspective of video data generation process. To overcome the problems of
lacking fine-grained supervision in terms of intervention, we propose a novel
spatial-temporal adversarial contrastive learning paradigm. To further remove
the accompanying confounding effect within the object-relevant association, we
pursue the true causality by conducting causal intervention via backdoor
adjustment. Finally, the deconfounded object-relevant association is learned
and optimized under a unified causal framework in an end-to-end manner.
Extensive experiments on both IID and OOD testing sets of three benchmarks
demonstrate its accurate and robust grounding performance against
state-of-the-arts.
- Abstract(参考訳): 我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
近年の進歩にも拘わらず, 既存の手法はすべて, 接地性能を損なうスプリアスアソシエーションの深刻な問題に悩まされている。
本稿では,WSVOGの定義から出発し,(1)関係自体がオブジェクト関係ではなく,監督の弱いため極めて曖昧であり,(2)既存の手法で統計に基づくマッチング戦略をとる際に,観測バイアスによって必然的に結合される,という2つの側面からスプリケートな関連性を見極める。
このことを念頭に、より正確で堅牢なビデオオブジェクトグラウンドイングのために、分解されたオブジェクト関連アソシエーションを学習するための統一因果フレームワークを設計する。
具体的には,映像データ生成プロセスの観点から,因果的介入によるオブジェクト関連関係を学習する。
介入の観点で細かな監督の欠如を克服するために,新しい空間的-時間的adversarial contrastive learningパラダイムを提案する。
さらに, 対象関係における共起効果をさらに排除するため, バックドア調整による因果介入を行い, 真の因果関係を追求する。
最後に、分離されたオブジェクト関連協会は、エンドツーエンドで統一因果フレームワークの下で学び、最適化される。
IIDおよびOODテストセットの3つのベンチマークの大規模な実験は、最先端技術に対する正確で堅牢な基盤性能を示している。
関連論文リスト
- Knowledge-guided Causal Intervention for Weakly-supervised Object
Localization [32.99508048913356]
KG-CI-CAMは知識誘導因果介入法である。
我々は、因果介入による共起コンテキスト共同設立問題に取り組む。
分類知識の吸収と局所化知識のバランスをとるための多元的知識指導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-03T12:02:19Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding [44.33411132188231]
visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2021-03-24T05:03:54Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。