論文の概要: CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2208.07109v1
- Date: Mon, 15 Aug 2022 10:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:10:37.481992
- Title: CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph
Generation
- Title(参考訳): CAME: 曖昧なシーングラフ生成のためのコンテキスト認識混合処理
- Authors: Liguang Zhou, Yuhongze Zhou, Tin Lun Lam, Yangsheng Xu
- Abstract要約: 本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。
我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 10.724516317292926
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The scene graph generation has gained tremendous progress in recent years.
However, its intrinsic long-tailed distribution of predicate classes is a
challenging problem. Almost all existing scene graph generation (SGG) methods
follow the same framework where they use a similar backbone network for object
detection and a customized network for scene graph generation. These methods
often design the sophisticated context-encoder to extract the inherent
relevance of scene context w.r.t the intrinsic predicates and complicated
networks to improve the learning capabilities of the network model for highly
imbalanced data distributions. To address the unbiased SGG problem, we present
a simple yet effective method called Context-Aware Mixture-of-Experts (CAME) to
improve the model diversity and alleviate the biased SGG without a
sophisticated design. Specifically, we propose to use the mixture of experts to
remedy the heavily long-tailed distributions of predicate classes, which is
suitable for most unbiased scene graph generators. With a mixture of relation
experts, the long-tailed distribution of predicates is addressed in a divide
and ensemble manner. As a result, the biased SGG is mitigated and the model
tends to make more balanced predicates predictions. However, experts with the
same weight are not sufficiently diverse to discriminate the different levels
of predicates distributions. Hence, we simply use the build-in context-aware
encoder, to help the network dynamically leverage the rich scene
characteristics to further increase the diversity of the model. By utilizing
the context information of the image, the importance of each expert w.r.t the
scene context is dynamically assigned. We have conducted extensive experiments
on three tasks on the Visual Genome dataset to show that came achieved superior
performance over previous methods.
- Abstract(参考訳): 近年,シーングラフ生成は飛躍的な進歩を遂げている。
しかし、その固有の長尾述語クラスの分布は難しい問題である。
ほぼすべての既存のシーングラフ生成(sgg)メソッドは、オブジェクト検出に類似のバックボーンネットワークとシーングラフ生成にカスタマイズされたネットワークを使用する同じフレームワークに従っている。
これらの手法はしばしば、シーンコンテキストw.r.tの固有述語と複雑なネットワークの固有性を抽出するために洗練されたコンテキストエンコーダを設計し、高度に不均衡なデータ分散のためのネットワークモデルの学習能力を改善する。
バイアスのないSGG問題に対処するために、モデル多様性を改善し、洗練された設計をすることなくバイアス付きSGGを緩和するために、Context-Aware Mixture-of-Experts (CAME) と呼ばれるシンプルで効果的な方法を提案する。
具体的には,多くの非バイアスのシーングラフ生成装置に適した述語クラスの長い分布を,専門家の混在で補うことを提案する。
関係の専門家の混合により、述語の長い尾の分布は分割とアンサンブルの方法で対処される。
その結果、バイアス付きSGGは緩和され、モデルはよりバランスの取れた述語予測を行う傾向にある。
しかし、同じ重量を持つ専門家は、異なるレベルの述語分布を識別するのに十分な多様性を持っていない。
したがって、単にビルトインコンテクストアウェアエンコーダを使用して、ネットワークがリッチなシーン特性を動的に活用し、モデルの多様性をさらに高められるようにします。
画像のコンテキスト情報を利用することにより、各専門家w.r.tのシーンコンテキストの重要性を動的に割り当てる。
我々は、Visual Genomeデータセットの3つのタスクについて広範な実験を行い、従来の手法よりも優れた性能を示した。
関連論文リスト
- Ensemble Predicate Decoding for Unbiased Scene Graph Generation [40.01591739856469]
シーングラフ生成(SGG)は、与えられたシナリオの意味情報をキャプチャする包括的なグラフィカル表現を生成することを目的としている。
よりきめ細かい述語を予測する際のモデルの性能は、有意な述語バイアスによって妨げられる。
本稿では,複数のデコーダを用いて非バイアスなシーングラフ生成を実現するEnsemble Predicate Decoding (EPD)を提案する。
論文 参考訳(メタデータ) (2024-08-26T11:24:13Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Peer Learning for Unbiased Scene Graph Generation [16.69329808479805]
我々は、バイアス付きシーングラフ生成(SGG)の問題に対処するピアラーニングと呼ばれる新しいフレームワークを提案する。
このフレームワークは、予測サンプリングとコンセンサス投票(PSCV)を使用して、異なるピアが互いに学び合うように促している。
我々は,bf31.6の平均を達成し,SGClsタスクに新たな最先端技術(SOTA)を確立した。
論文 参考訳(メタデータ) (2022-12-31T07:56:35Z) - Unbiased Scene Graph Generation using Predicate Similarities [7.9112365100345965]
シーングラフは、画像に示されるオブジェクト間の関係のグラフィカル表現としてコンピュータビジョンに広く応用されている。
これらの応用は、長い尾の述語分布に起因する偏りのある訓練のため、まだ開発段階に達していない。
同様の述語群に対して,プロセスをいくつかのきめ細かい分類器に分割する新しい分類法を提案する。
Visual Genomeデータセットの広範な実験結果から,提案手法と既存のデバイアス手法を組み合わせることで,SGCls/SGDetタスクに挑戦する尾述語の性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-03T13:28:01Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - Graph Classification by Mixture of Diverse Experts [67.33716357951235]
我々は,不均衡なグラフ分類に多様な専門家の混在を利用したフレームワークであるGraphDIVEを提案する。
GraphDIVEは、分割と並列の原則により、不均衡なグラフデータセットを複数のサブセットに分割するゲーティングネットワークを採用しています。
実世界の不均衡グラフデータセットに関する実験は、GraphDIVEの有効性を示している。
論文 参考訳(メタデータ) (2021-03-29T14:03:03Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。