論文の概要: Taking A Closer Look at Visual Relation: Unbiased Video Scene Graph
Generation with Decoupled Label Learning
- arxiv url: http://arxiv.org/abs/2303.13209v1
- Date: Thu, 23 Mar 2023 12:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:38:21.505753
- Title: Taking A Closer Look at Visual Relation: Unbiased Video Scene Graph
Generation with Decoupled Label Learning
- Title(参考訳): 視覚関係を詳しく見る - ラベル学習を分離したビデオシーングラフ生成
- Authors: Wenqing Wang, Yawei Luo, Zhiqing Chen, Tao Jiang, Lei Chen, Yi Yang,
Jun Xiao
- Abstract要約: 述語をよく見て、ほとんどの視覚的関係が行動的パターン(sit)と空間的パターンの両方に関係していることを特定します。
本稿では,パターンレベルの観点からの難解な視覚関係予測に対処するために,分離ラベル学習(DLL)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 43.68357108342476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video-based scene graph generation (VidSGG) methods have been found
to perform poorly on predicting predicates that are less represented due to the
inherent biased distribution in the training data. In this paper, we take a
closer look at the predicates and identify that most visual relations (e.g.
sit_above) involve both actional pattern (sit) and spatial pattern (above),
while the distribution bias is much less severe at the pattern level. Based on
this insight, we propose a decoupled label learning (DLL) paradigm to address
the intractable visual relation prediction from the pattern-level perspective.
Specifically, DLL decouples the predicate labels and adopts separate
classifiers to learn actional and spatial patterns respectively. The patterns
are then combined and mapped back to the predicate. Moreover, we propose a
knowledge-level label decoupling method to transfer non-target knowledge from
head predicates to tail predicates within the same pattern to calibrate the
distribution of tail classes. We validate the effectiveness of DLL on the
commonly used VidSGG benchmark, i.e. VidVRD. Extensive experiments demonstrate
that the DLL offers a remarkably simple but highly effective solution to the
long-tailed problem, achieving the state-of-the-art VidSGG performance.
- Abstract(参考訳): 現在のビデオベースのシーングラフ生成(vidsgg)法は、トレーニングデータに固有の偏りがあるため、表現の少ない述語を予測できないことが判明している。
本稿では,これらの述語を詳細に見て,ほとんどの視覚関係(例えば sit_above)が行動パターン (sit) と空間パターン (above) の両方を伴っているのに対し,分布バイアスはパターンレベルでははるかに深刻であることを示す。
この知見に基づいて,パターンレベルの視点から難解な視覚関係予測に対処するために,分離ラベル学習(dll)パラダイムを提案する。
具体的には、DLLは述語ラベルを分離し、それぞれが行動パターンと空間パターンを学ぶために別々の分類器を採用する。
パターンは組み合わせられ、述語にマップされます。
さらに,頭部述語から尾部述語への非目標知識を同じパターン内の尾部述語に伝達し,尾部の分布を校正する知識レベルラベルデカップリング手法を提案する。
一般的なVidSGGベンチマーク,すなわちVidVRDにおけるDLLの有効性を検証する。
広範な実験により、dllは極めて単純で非常に効果的なソリューションを提供し、最先端のvidsgg性能を達成することが証明された。
関連論文リスト
- Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing [14.50214193838818]
FloCoDe: 動的シーングラフに対する不確実性減衰を伴うフロー認識時間と相関バイアス
本稿では,長い尾を持つクラスに対する非バイアス付き関係表現を学習するために,相関バイアスと相関に基づく損失を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:59:51Z) - Triple Correlations-Guided Label Supplementation for Unbiased Video
Scene Graph Generation [27.844658260885744]
映像ベースのシーングラフ生成(VidSGG)は、視覚的実体とその関係を識別することによって動的グラフ内の映像コンテンツを表現することを目的とした手法である。
現在のVidSGG法は、表現の少ない述語では性能が良くない。
そこで,本論文では,真真正のアノテーションに現れるべき不備の述語を補足することで,明示的な解決法を提案する。
論文 参考訳(メタデータ) (2023-07-30T19:59:17Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z) - Learning Graph-Based Priors for Generalized Zero-Shot Learning [21.43100823741393]
ゼロショット学習(ZSL)では、トレーニング時に目に見えないクラスからサンプルのラベルを正確に予測する必要がある。
GZSLへの最近のアプローチは、未知のクラスからサンプルを生成するために使用される生成モデルの価値を示している。
本研究では,ラベル上の関係グラフの形式に副次的な情報ソースを組み込む。
論文 参考訳(メタデータ) (2020-10-22T01:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。