論文の概要: Meta Spatio-Temporal Debiasing for Video Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2207.11441v1
- Date: Sat, 23 Jul 2022 07:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:23:24.362491
- Title: Meta Spatio-Temporal Debiasing for Video Scene Graph Generation
- Title(参考訳): ビデオシーングラフ生成のためのメタ時空間デバイアス
- Authors: Li Xu, Haoxuan Qu, Jason Kuen, Jiuxiang Gu and Jun Liu
- Abstract要約: 本稿では,バイアス問題に対処する新しいMeta Video Scene Generation(MVSGG)フレームワークを提案する。
我々のフレームワークはまず、トレーニングデータからサポートセットとグループクエリセットを構築します。
そして、モデル最適化のためのメタトレーニングとテストプロセスを実行することで、私たちのフレームワークは、モデルがバイアスに対してうまく学習するように効果的にガイドすることができます。
- 参考スコア(独自算出の注目度): 22.216881800098726
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video scene graph generation (VidSGG) aims to parse the video content into
scene graphs, which involves modeling the spatio-temporal contextual
information in the video. However, due to the long-tailed training data in
datasets, the generalization performance of existing VidSGG models can be
affected by the spatio-temporal conditional bias problem. In this work, from
the perspective of meta-learning, we propose a novel Meta Video Scene Graph
Generation (MVSGG) framework to address such a bias problem. Specifically, to
handle various types of spatio-temporal conditional biases, our framework first
constructs a support set and a group of query sets from the training data,
where the data distribution of each query set is different from that of the
support set w.r.t. a type of conditional bias. Then, by performing a novel meta
training and testing process to optimize the model to obtain good testing
performance on these query sets after training on the support set, our
framework can effectively guide the model to learn to well generalize against
biases. Extensive experiments demonstrate the efficacy of our proposed
framework.
- Abstract(参考訳): 映像シーングラフ生成(VidSGG)は、映像コンテンツをシーングラフに解析することを目的としており、ビデオ内の時空間情報をモデル化する。
しかし,データセットのロングテールトレーニングデータにより,既存のvidsggモデルの一般化性能は時空間バイアス問題に影響を受ける可能性がある。
本稿では,メタラーニングの観点から,そのようなバイアス問題に対処する新しいメタビデオシーングラフ生成(MVSGG)フレームワークを提案する。
具体的には、様々な時空間的条件付きバイアスを扱うために、まず、トレーニングデータからサポートセットとクエリセットのグループを構築し、各クエリセットのデータ分布を、サポートセットw.r.t.のそれとは異なる条件付きバイアスとして構成する。
そして,新しいメタトレーニングおよびテストプロセスを実行して,これらのクエリセットのトレーニング後の優れたテスト性能を得るためにモデルを最適化することにより,我々のフレームワークは,モデルがバイアスに対して適切に一般化されることを効果的にガイドすることができる。
広範な実験により,提案手法の有効性が実証された。
関連論文リスト
- Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。