論文の概要: SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2211.04773v1
- Date: Wed, 9 Nov 2022 10:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:06:48.705186
- Title: SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation
- Title(参考訳): sg-shuffle:シーングラフ生成のためのマルチスペクトルシャッフルトランス
- Authors: Anh Duc Bui, Soyeon Caren Han, Josiah Poon
- Abstract要約: シーングラフ生成(SGG)は、人間の理解と視覚的理解のための画像の包括的表現を提供する。
利用可能なアノテートデータ中のオブジェクトと述語ラベルの長いテールバイアス問題により、現在の手法から生成されたシーングラフは、一般的な非表現的関係ラベルにバイアスすることができる。
本研究では,シーングラフ生成のためのSG-Shuffleパイプラインを3つのコンポーネントで提案した。1) 関係ラベルを類似したグループにグループ化することで,より排他的な方法でオブジェクト関係の予測を学習する並列変換器,2) カテゴリ特化特徴から最終関係ラベルを選択するシュッフル変換器。
- 参考スコア(独自算出の注目度): 4.319987790757823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) serves a comprehensive representation of the
images for human understanding as well as visual understanding tasks. Due to
the long tail bias problem of the object and predicate labels in the available
annotated data, the scene graph generated from current methodologies can be
biased toward common, non-informative relationship labels. Relationship can
sometimes be non-mutually exclusive, which can be described from multiple
perspectives like geometrical relationships or semantic relationships, making
it even more challenging to predict the most suitable relationship label. In
this work, we proposed the SG-Shuffle pipeline for scene graph generation with
3 components: 1) Parallel Transformer Encoder, which learns to predict object
relationships in a more exclusive manner by grouping relationship labels into
groups of similar purpose; 2) Shuffle Transformer, which learns to select the
final relationship labels from the category-specific feature generated in the
previous step; and 3) Weighted CE loss, used to alleviate the training bias
caused by the imbalanced dataset.
- Abstract(参考訳): シーングラフ生成(SGG)は、人間の理解と視覚的理解のための画像の包括的表現を提供する。
利用可能な注釈データにおけるオブジェクトと述語ラベルのロングテールバイアス問題のため、現在の手法から生成されたシーングラフは、共通の非インフォーマティブな関係ラベルに偏ることができる。
関係は時として非相互排他的であり、幾何学的関係や意味的関係といった複数の観点から説明できるため、最も適切な関係ラベルを予測することはさらに困難である。
本研究では,3成分からなるシーングラフ生成のためのSG-Shuffleパイプラインを提案する。
1) 関係ラベルを類似の目的の群にグループ化して,より排他的な方法でオブジェクト関係を予測することを学ぶ並列トランスフォーマエンコーダ
2) 前のステップで生成されたカテゴリ固有の特徴から最終関係ラベルを選択することを学ぶシャッフル変換器
3)不均衡データセットに起因するトレーニングバイアスを軽減するために使用される重み付きce損失。
関連論文リスト
- SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - Graph Attention Transformer Network for Multi-Label Image Classification [50.0297353509294]
複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための一般的なフレームワークを提案する。
提案手法は3つのデータセット上で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-03-08T12:39:05Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。