論文の概要: Compositional Feature Augmentation for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2308.06712v1
- Date: Sun, 13 Aug 2023 08:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:57:10.237529
- Title: Compositional Feature Augmentation for Unbiased Scene Graph Generation
- Title(参考訳): 非バイアスシーングラフ生成のための合成特徴拡張
- Authors: Lin Li, Guikun Chen, Jun Xiao, Yi Yang, Chunping Wang, Long Chen
- Abstract要約: シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係三重項、pred、obj>を検出することを目的としている。
ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
本稿では, バイアス問題を緩和する最初の非バイアス型SGG作業である, 合成特徴増強(CFA)戦略を提案する。
- 参考スコア(独自算出の注目度): 28.905732042942066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to detect all the visual relation triplets
<sub, pred, obj> in a given image. With the emergence of various advanced
techniques for better utilizing both the intrinsic and extrinsic information in
each relation triplet, SGG has achieved great progress over the recent years.
However, due to the ubiquitous long-tailed predicate distributions, today's SGG
models are still easily biased to the head predicates. Currently, the most
prevalent debiasing solutions for SGG are re-balancing methods, e.g., changing
the distributions of original training samples. In this paper, we argue that
all existing re-balancing strategies fail to increase the diversity of the
relation triplet features of each predicate, which is critical for robust SGG.
To this end, we propose a novel Compositional Feature Augmentation (CFA)
strategy, which is the first unbiased SGG work to mitigate the bias issue from
the perspective of increasing the diversity of triplet features. Specifically,
we first decompose each relation triplet feature into two components: intrinsic
feature and extrinsic feature, which correspond to the intrinsic
characteristics and extrinsic contexts of a relation triplet, respectively.
Then, we design two different feature augmentation modules to enrich the
feature diversity of original relation triplets by replacing or mixing up
either their intrinsic or extrinsic features from other samples. Due to its
model-agnostic nature, CFA can be seamlessly incorporated into various SGG
frameworks. Extensive ablations have shown that CFA achieves a new
state-of-the-art performance on the trade-off between different metrics.
- Abstract(参考訳): シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係トリプレット<sub, pred, obj>を検出することを目的としている。
近年SGGは,各関係三重項における内在的情報と外因的情報の両方をよりよく活用するための様々な高度な技術が出現し,大きな進歩を遂げている。
しかし、ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
現在、sggの最も一般的なデバイアスソリューションは、元のトレーニングサンプルの分布を変更するような再バランス法である。
本稿では,すべての既存再バランス戦略が,ロバストsggに不可欠な各述語の関係三重項特徴の多様性を増大させることができないことを論じる。
この目的のために,三重項特徴の多様性を増大させる観点からバイアス問題を緩和する新しい構成的特徴拡張(CFA)戦略を提案する。
具体的には,まず,関係三重項の特徴を内在的特徴と外在的特徴の2つの成分に分解し,関係三重項の内在的特徴と外因的文脈をそれぞれ対応付ける。
次に, 2 つの特徴拡張モジュールを設計し, それらの内在的特徴と外在的特徴を他のサンプルから置き換え, 混合することにより, 元の関係三重項の特徴の多様性を高める。
モデルに依存しない性質のため、CFAは様々なSGGフレームワークにシームレスに組み込むことができる。
広範なアブレーションは、cfaが異なるメトリクス間のトレードオフにおいて、新たな最先端のパフォーマンスを達成していることを示している。
関連論文リスト
- RA-SGG: Retrieval-Augmented Scene Graph Generation Framework via Multi-Prototype Learning [24.52282123604646]
シーングラフ生成(SGG)研究は、長い尾の述語分布と述語間の意味的曖昧さの2つの根本的な課題に悩まされている。
本稿では,マルチラベル化可能なインスタンスを識別し,元のラベルにセマンティックに類似したマルチラベルでシングルラベルを拡張可能な検索言語Retrieval-Augmented Scene Graph Generation (RA-SGG)を提案する。
RA-SGGは、長い尾の分布と述語の意味的あいまいさに起因するバイアス予測の問題を効果的に緩和する。
論文 参考訳(メタデータ) (2024-12-17T10:47:13Z) - Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。