論文の概要: Vision Relation Transformer for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2308.09472v1
- Date: Fri, 18 Aug 2023 11:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:28:14.641932
- Title: Vision Relation Transformer for Unbiased Scene Graph Generation
- Title(参考訳): 無バイアスシーングラフ生成のための視覚関連変換器
- Authors: Gopika Sudhakaran, Devendra Singh Dhami, Kristian Kersting, Stefan
Roth
- Abstract要約: 現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
- 参考スコア(独自算出の注目度): 31.29954125135073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a growing interest in Scene Graph Generation (SGG), a
comprehensive visual scene understanding task that aims to predict entity
relationships using a relation encoder-decoder pipeline stacked on top of an
object encoder-decoder backbone. Unfortunately, current SGG methods suffer from
an information loss regarding the entities local-level cues during the relation
encoding process. To mitigate this, we introduce the Vision rElation
TransfOrmer (VETO), consisting of a novel local-level entity relation encoder.
We further observe that many existing SGG methods claim to be unbiased, but are
still biased towards either head or tail classes. To overcome this bias, we
introduce a Mutually Exclusive ExperT (MEET) learning strategy that captures
important relation features without bias towards head or tail classes.
Experimental results on the VG and GQA datasets demonstrate that VETO + MEET
boosts the predictive performance by up to 47 percentage over the state of the
art while being 10 times smaller.
- Abstract(参考訳): 近年,オブジェクトエンコーダ-デコーダバックボーン上に積み上げられたリレーションエンコーダ-デコーダパイプラインを使用してエンティティ関係を予測することを目的とした,総合的な視覚的シーン理解タスクであるSGGへの関心が高まっている。
残念ながら、現在のSGG法は、関係符号化プロセスにおいて、エンティティのローカルレベルのキューに関する情報損失に悩まされている。
これを緩和するために、新しい局所レベルのエンティティ関係エンコーダからなるビジョンrElation TransfOrmer(VETO)を導入する。
さらに、多くの既存のSGG法は偏りがないと主張するが、まだ頭や尾のクラスに偏っている。
このバイアスを克服するために、頭や尾のクラスに偏ることなく重要な関係特徴を捕捉するMutually Exclusive ExperT(MEET)学習戦略を導入する。
VGとGQAデータセットの実験結果から、VETO+MEETは10倍の精度で、最先端の予測性能を最大47パーセント向上することが示された。
関連論文リスト
- FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing [14.50214193838818]
FloCoDe: 動的シーングラフに対する不確実性減衰を伴うフロー認識時間と相関バイアス
本稿では,長い尾を持つクラスに対する非バイアス付き関係表現を学習するために,相関バイアスと相関に基づく損失を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:59:51Z) - Head-Tail Cooperative Learning Network for Unbiased Scene Graph
Generation [30.467562472064177]
現在の無バイアスのシーングラフ生成(SGG)手法は、頭部述語予測におけるかなりの犠牲を無視している。
本稿では,頭部優先と尾長優先の特徴表現を含むモデル非依存型頭位協調学習ネットワークを提案する。
提案手法は,リコールにおいて最小限の犠牲を伴って高い平均リコールを実現し,新しい最先端の総合性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T10:29:25Z) - Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation [87.13847750383778]
シーングラフ生成のための頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
提案手法は,VGおよびGQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-16T11:53:50Z) - Learning To Generate Scene Graph from Head to Tail [65.48134724633472]
我々は,頭から爪までのシーングラフを生成する新しいSGGフレームワーク(SGG-HT)を提案する。
CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。
SCMは,大域的および局所的な表現において,生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
論文 参考訳(メタデータ) (2022-06-23T12:16:44Z) - HL-Net: Heterophily Learning Network for Scene Graph Generation [90.2766568914452]
本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。
HL-Netは、適応的な再重み付け変換モジュールで、異なる層からの情報を適応的に統合し、オブジェクトのヘテロフィリとホモフィリの両方を利用する。
我々は、ビジュアルゲノム(VG)とオープンイメージ(OI)の2つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-03T06:00:29Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - CogTree: Cognition Tree Loss for Unbiased Scene Graph Generation [23.55530043171931]
SGG(Scene Graph Generation)は、現実のシナリオでバイアスデータに直面すると満足できない。
本研究では,非バイアスSGGに対する新規なデバイアス認知木(CogTree)の損失を提案する。
この損失はモデルに依存しず、いくつかの最先端モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2020-09-16T07:47:26Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。