論文の概要: Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2203.09811v1
- Date: Fri, 18 Mar 2022 09:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 23:29:54.417775
- Title: Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation
- Title(参考訳): 非バイアスシーングラフ生成のための階層型ハイブリッド・アテンションとグループ協調学習
- Authors: Xingning Dong, Tian Gan, Xuemeng Song, Jianlong Wu, Yuan Cheng,
Liqiang Nie
- Abstract要約: Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
- 参考スコア(独自算出の注目度): 62.96628432641806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation, which generally follows a regular encoder-decoder
pipeline, aims to first encode the visual contents within the given image and
then parse them into a compact summary graph. Existing SGG approaches generally
not only neglect the insufficient modality fusion between vision and language,
but also fail to provide informative predicates due to the biased relationship
predictions, leading SGG far from practical. Towards this end, in this paper,
we first present a novel Stacked Hybrid-Attention network, which facilitates
the intra-modal refinement as well as the inter-modal interaction, to serve as
the encoder. We then devise an innovative Group Collaborative Learning strategy
to optimize the decoder. Particularly, based upon the observation that the
recognition capability of one classifier is limited towards an extremely
unbalanced dataset, we first deploy a group of classifiers that are expert in
distinguishing different subsets of classes, and then cooperatively optimize
them from two aspects to promote the unbiased SGG. Experiments conducted on VG
and GQA datasets demonstrate that, we not only establish a new state-of-the-art
in the unbiased metric, but also nearly double the performance compared with
two baselines.
- Abstract(参考訳): Scene Graph Generationは、通常エンコーダ-デコーダパイプラインに従っており、まず与えられた画像内の視覚的コンテンツをエンコードし、それからコンパクトな要約グラフに解析することを目的としている。
既存のSGGアプローチは一般的に、視覚と言語の間のモダリティの融合が不十分であることを無視するだけでなく、偏りのある関係予測のために情報的な述語を提供しない。
そこで本稿では,まず,モダリティ間相互作用とモダリティ間相互作用が促進され,エンコーダとして機能する,新しい階層型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
特に、1つの分類器の認識能力が極めて不均衡なデータセットに向けて制限されているという観測に基づいて、まず、異なるクラスのサブセットを識別する専門的な分類器のグループを配置し、それらを2つの側面から協調的に最適化し、偏りのないsggを促進する。
VGデータセットとGQAデータセットで実施された実験では、偏りのない測定値に新たな最先端技術を確立するだけでなく、2つのベースラインと比較してほぼ2倍の性能を示した。
関連論文リスト
- Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
CoGCLは、離散コードを通じてより強力な協調情報でコントラスト的なビューを構築することで、グラフのコントラスト学習を強化することを目的としている。
ユーザとアイテムの表現を離散コードに定量化するために,マルチレベルベクトル量化器をエンドツーエンドで導入する。
近傍構造に対しては,離散符号を仮想隣人として扱うことにより,仮想隣人拡張を提案する。
意味的関連性については、共有された離散コードと相互作用ターゲットに基づいて類似のユーザ/イテムを識別し、意味的関連性のあるビューを生成する。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Vision Relation Transformer for Unbiased Scene Graph Generation [31.29954125135073]
現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
論文 参考訳(メタデータ) (2023-08-18T11:15:31Z) - Line Graph Contrastive Learning for Link Prediction [4.876567687745239]
多視点情報を得るために,Line Graph Contrastive Learning (LGCL)法を提案する。
6つの公開データセットの実験により、LGCLはリンク予測タスクの現在のベンチマークを上回っている。
論文 参考訳(メタデータ) (2022-10-25T06:57:00Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-06-21T02:24:20Z) - Deepened Graph Auto-Encoders Help Stabilize and Enhance Link Prediction [11.927046591097623]
リンク予測は、浅層グラフオートエンコーダ(GAE)アーキテクチャの1層または2層に基づく現在の最先端モデルを用いて、比較的未研究のグラフ学習タスクである。
本論文では,浅いGAEと変動GAEしか使用できないリンク予測の現在の手法の限界に対処することに焦点をあてる。
提案手法はGAEのアーキテクチャに標準オートエンコーダ(AE)を革新的に組み込んでおり、標準AEは隣接情報とノード機能をシームレスに統合することで必要不可欠な低次元表現を学習する。
論文 参考訳(メタデータ) (2021-03-21T14:43:10Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Adaptive Graph Convolutional Network with Attention Graph Clustering for
Co-saliency Detection [35.23956785670788]
注目グラフクラスタリング(GCAGC)を用いた新しい適応グラフ畳み込みネットワークを提案する。
注意グラフクラスタリングアルゴリズムを開発し、教師なしの方法で全前景オブジェクトから共通オブジェクトを識別する。
提案手法を3つのコサリエンシ検出ベンチマークデータセット上で評価した。
論文 参考訳(メタデータ) (2020-03-13T09:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。