論文の概要: Head-Tail Cooperative Learning Network for Unbiased Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2308.12048v1
- Date: Wed, 23 Aug 2023 10:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:38:15.141129
- Title: Head-Tail Cooperative Learning Network for Unbiased Scene Graph
Generation
- Title(参考訳): 無バイアスシーングラフ生成のためのヘッドテール協調学習ネットワーク
- Authors: Lei Wang, Zejian Yuan, Yao Lu, Badong Chen
- Abstract要約: 現在の無バイアスのシーングラフ生成(SGG)手法は、頭部述語予測におけるかなりの犠牲を無視している。
本稿では,頭部優先と尾長優先の特徴表現を含むモデル非依存型頭位協調学習ネットワークを提案する。
提案手法は,リコールにおいて最小限の犠牲を伴って高い平均リコールを実現し,新しい最先端の総合性能を実現する。
- 参考スコア(独自算出の注目度): 30.467562472064177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) as a critical task in image understanding,
facing the challenge of head-biased prediction caused by the long-tail
distribution of predicates. However, current unbiased SGG methods can easily
prioritize improving the prediction of tail predicates while ignoring the
substantial sacrifice in the prediction of head predicates, leading to a shift
from head bias to tail bias. To address this issue, we propose a model-agnostic
Head-Tail Collaborative Learning (HTCL) network that includes head-prefer and
tail-prefer feature representation branches that collaborate to achieve
accurate recognition of both head and tail predicates. We also propose a
self-supervised learning approach to enhance the prediction ability of the
tail-prefer feature representation branch by constraining tail-prefer predicate
features. Specifically, self-supervised learning converges head predicate
features to their class centers while dispersing tail predicate features as
much as possible through contrast learning and head center loss. We demonstrate
the effectiveness of our HTCL by applying it to various SGG models on VG150,
Open Images V6 and GQA200 datasets. The results show that our method achieves
higher mean Recall with a minimal sacrifice in Recall and achieves a new
state-of-the-art overall performance. Our code is available at
https://github.com/wanglei0618/HTCL.
- Abstract(参考訳): 画像理解における重要なタスクであるシーングラフ生成(sgg)は,述語長尾分布に起因する頭部バイアス予測の課題に直面している。
しかし、現在の偏りのないsgg法は、頭述語予測における実質的な犠牲を無視しながら、尾述語の予測を改善することを優先し易いため、頭バイアスから尾バイアスへと移行する。
この問題に対処するために,頭部と尾の述語の両方の正確な認識を実現するために,頭部と尾の選好特徴表現枝を含むモデルに依存しない頭部と尾の選好協調学習(HTCL)ネットワークを提案する。
また,尾長述語特徴を制約することにより尾長述語特徴表現枝の予測能力を高めるための自己教師あり学習手法を提案する。
特に、自己教師付き学習は、コントラスト学習とヘッドセンター損失を通じて、テール述語特徴を可能な限り分散しながら、頭述語特徴をクラスセンターに収束させる。
VG150、Open Images V6、GQA200データセット上の様々なSGGモデルに適用することで、HTCLの有効性を実証する。
その結果,本手法はリコール時の犠牲を最小限に抑え,より高い平均リコールを達成し,新たな最先端性能を達成できた。
私たちのコードはhttps://github.com/wanglei0618/HTCLで利用可能です。
関連論文リスト
- Vision Relation Transformer for Unbiased Scene Graph Generation [31.29954125135073]
現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
論文 参考訳(メタデータ) (2023-08-18T11:15:31Z) - Feature Fusion from Head to Tail for Long-Tailed Visual Recognition [39.86973663532936]
テールクラスにおけるセマンティック情報の不十分に起因するバイアスのある決定境界は、認識精度の低下に寄与する重要な要因の1つである。
我々は,H2T(head-to-tail fusion)と呼ばれるヘッドクラスから多様な意味情報を移植することで,テールクラスを増強することを提案する。
理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。
論文 参考訳(メタデータ) (2023-06-12T08:50:46Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation [87.13847750383778]
シーングラフ生成のための頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
提案手法は,VGおよびGQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-16T11:53:50Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Learning To Generate Scene Graph from Head to Tail [65.48134724633472]
我々は,頭から爪までのシーングラフを生成する新しいSGGフレームワーク(SGG-HT)を提案する。
CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。
SCMは,大域的および局所的な表現において,生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
論文 参考訳(メタデータ) (2022-06-23T12:16:44Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。