論文の概要: Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2207.07913v1
- Date: Sat, 16 Jul 2022 11:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:43:12.754239
- Title: Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation
- Title(参考訳): 非バイアスシーングラフ生成のためのデュアルブランチハイブリッド学習ネットワーク
- Authors: Chaofan Zheng, Lianli Gao, Xinyu Lyu, Pengpeng Zeng, Abdulmotaleb El
Saddik, Heng Tao Shen
- Abstract要約: シーングラフ生成のための頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
提案手法は,VGおよびGQAデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 87.13847750383778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current studies of Scene Graph Generation (SGG) focus on solving the
long-tailed problem for generating unbiased scene graphs. However, most
de-biasing methods overemphasize the tail predicates and underestimate head
ones throughout training, thereby wrecking the representation ability of head
predicate features. Furthermore, these impaired features from head predicates
harm the learning of tail predicates. In fact, the inference of tail predicates
heavily depends on the general patterns learned from head ones, e.g., "standing
on" depends on "on". Thus, these de-biasing SGG methods can neither achieve
excellent performance on tail predicates nor satisfying behaviors on head ones.
To address this issue, we propose a Dual-branch Hybrid Learning network (DHL)
to take care of both head predicates and tail ones for SGG, including a
Coarse-grained Learning Branch (CLB) and a Fine-grained Learning Branch (FLB).
Specifically, the CLB is responsible for learning expertise and robust features
of head predicates, while the FLB is expected to predict informative tail
predicates. Furthermore, DHL is equipped with a Branch Curriculum Schedule
(BCS) to make the two branches work well together. Experiments show that our
approach achieves a new state-of-the-art performance on VG and GQA datasets and
makes a trade-off between the performance of tail predicates and head ones.
Moreover, extensive experiments on two downstream tasks (i.e., Image Captioning
and Sentence-to-Graph Retrieval) further verify the generalization and
practicability of our method.
- Abstract(参考訳): シーングラフ生成(sgg)に関する最近の研究は、不偏のシーングラフを生成するためのロングテール問題を解くことに焦点を当てている。
しかし、ほとんどの脱バイアス法は、訓練を通して尾部述語と頭述語を過度に強調し、それによって頭部述語の特徴の表現能力を損なう。
さらに,これらの頭部述語の特徴は尾部述語の学習を損なう。
実際、尾の推論は頭から学んだ一般的なパターンに大きく依存しており、例えば「立ち上がって」は「オン」に依存する。
したがって、これらの非バイアスのSGG法は、尾の述語における優れた性能や、頭部の挙動を満たすことができない。
この問題に対処するため、我々は、粗粒度学習部(CLB)と細粒度学習部(FLB)を含む、SGGの頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
具体的には、CLBは頭部述語に関する専門知識と堅牢な特徴を学習し、FLBは情報的尾述語を予測する。
さらに、DHLは分岐カリキュラムスケジュール(BCS)を備えており、2つのブランチをうまく連携させる。
実験の結果,本手法はVGおよびGQAデータセット上での新たな最先端性能を実現し,尾部述語と頭部述語のパフォーマンスのトレードオフを実現する。
さらに,2つの下流タスク(画像キャプションとグラフ検索)に関する広範な実験により,本手法の一般化と実践性をさらに検証した。
関連論文リスト
- Head-Tail Cooperative Learning Network for Unbiased Scene Graph
Generation [30.467562472064177]
現在の無バイアスのシーングラフ生成(SGG)手法は、頭部述語予測におけるかなりの犠牲を無視している。
本稿では,頭部優先と尾長優先の特徴表現を含むモデル非依存型頭位協調学習ネットワークを提案する。
提案手法は,リコールにおいて最小限の犠牲を伴って高い平均リコールを実現し,新しい最先端の総合性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T10:29:25Z) - Vision Relation Transformer for Unbiased Scene Graph Generation [31.29954125135073]
現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
論文 参考訳(メタデータ) (2023-08-18T11:15:31Z) - Feature Fusion from Head to Tail for Long-Tailed Visual Recognition [39.86973663532936]
テールクラスにおけるセマンティック情報の不十分に起因するバイアスのある決定境界は、認識精度の低下に寄与する重要な要因の1つである。
我々は,H2T(head-to-tail fusion)と呼ばれるヘッドクラスから多様な意味情報を移植することで,テールクラスを増強することを提案する。
理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。
論文 参考訳(メタデータ) (2023-06-12T08:50:46Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Learning To Generate Scene Graph from Head to Tail [65.48134724633472]
我々は,頭から爪までのシーングラフを生成する新しいSGGフレームワーク(SGG-HT)を提案する。
CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。
SCMは,大域的および局所的な表現において,生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
論文 参考訳(メタデータ) (2022-06-23T12:16:44Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。