論文の概要: Multi-level Compositional Feature Augmentation for Unbiased Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2308.06712v2
- Date: Mon, 23 Jun 2025 01:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.11186
- Title: Multi-level Compositional Feature Augmentation for Unbiased Scene Graph Generation
- Title(参考訳): 曖昧なシーングラフ生成のための多レベル構成特徴増強
- Authors: Lin Li, Xingchen Li, Chong Sun, Chen Li, Long Chen,
- Abstract要約: シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係三重項、pred、obj>を検出することを目的としている。
ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
本稿では,三重項特徴の多様性を高めることを目的とした,MCFA(Multi-level Compositional Feature Augmentation)戦略を提案する。
- 参考スコア(独自算出の注目度): 13.334914012275139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to detect all the visual relation triplets <sub, pred, obj> in a given image. With the emergence of various advanced techniques for better utilizing both the intrinsic and extrinsic information in each relation triplet, SGG has achieved great progress over the recent years. However, due to the ubiquitous long-tailed predicate distributions, today's SGG models are still easily biased to the head predicates. Currently, the most prevalent debiasing solutions for SGG are re-balancing methods, e.g., changing the distributions of original training samples. In this paper, we argue that all existing re-balancing strategies fail to increase the diversity of the relation triplet features of each predicate, which is critical for robust SGG. To this end, we propose a novel Multi-level Compositional Feature Augmentation (MCFA) strategy, which aims to mitigate the bias issue from the perspective of increasing the diversity of triplet features. Specifically, we enhance relationship diversity on not only feature-level, i.e., replacing the intrinsic or extrinsic visual features of triplets with other correlated samples to create novel feature compositions for tail predicates, but also image-level, i.e., manipulating the image to generate brand new visual appearance for triplets. Due to its model-agnostic nature, MCFA can be seamlessly incorporated into various SGG frameworks. Extensive ablations have shown that MCFA achieves a new state-of-the-art performance on the trade-off between different metrics.
- Abstract(参考訳): シーングラフ生成(SGG)は、与えられた画像内のすべての視覚的関係トリプレット<sub, pred, obj>を検出することを目的としている。
近年SGGは,各関係三重項における内在的情報と外因的情報の両方をよりよく活用するための様々な高度な技術が出現し,大きな進歩を遂げている。
しかし、ユビキタスな長い尾の述語分布のため、今日のSGGモデルはいまだに頭部述語に偏っている。
現在、SGGの最も一般的なデバイアス解は、例えば、元のトレーニングサンプルの分布を変更する再バランス法である。
本稿では,全ての既存再バランス戦略が,頑健なSGGにとって重要な述語間の関係3重項特徴の多様性を増大させることができないことを論じる。
そこで本稿では,三重項特徴の多様性向上の観点からバイアス問題を緩和することを目的とした,MCFA(Multi-level Compositional Feature Augmentation)戦略を提案する。
具体的には、特徴レベル、すなわち三重項の内在的または外在的な視覚的特徴を他の関連サンプルに置き換えて、尾部述語のための新しい特徴合成を作成するとともに、画像レベル、すなわち、画像を操作して三重項の新たな視覚的外観を生成することで、関係の多様性を高める。
モデルに依存しない性質のため、MCFAは様々なSGGフレームワークにシームレスに組み込むことができる。
MCFAは、さまざまなメトリクス間のトレードオフにおいて、新たな最先端のパフォーマンスを達成している。
関連論文リスト
- RA-SGG: Retrieval-Augmented Scene Graph Generation Framework via Multi-Prototype Learning [24.52282123604646]
シーングラフ生成(SGG)研究は、長い尾の述語分布と述語間の意味的曖昧さの2つの根本的な課題に悩まされている。
本稿では,マルチラベル化可能なインスタンスを識別し,元のラベルにセマンティックに類似したマルチラベルでシングルラベルを拡張可能な検索言語Retrieval-Augmented Scene Graph Generation (RA-SGG)を提案する。
RA-SGGは、長い尾の分布と述語の意味的あいまいさに起因するバイアス予測の問題を効果的に緩和する。
論文 参考訳(メタデータ) (2024-12-17T10:47:13Z) - Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Rethinking the Evaluation of Unbiased Scene Graph Generation [31.041074897404236]
シーングラフ生成(SGG)手法は、頻繁な述語カテゴリを予測し、稀なカテゴリを認識できない傾向にある。
最近の研究では、偏見のないSGGに焦点が当てられ、Recall@Kを主要な評価基準として採用している。
Independent Mean Recall(IMR)とheighted IMR(wIMR)の2つの相補的評価指標を提案する。
論文 参考訳(メタデータ) (2022-08-03T08:23:51Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。