論文の概要: Panoptic Scene Graph Generation with Semantics-Prototype Learning
- arxiv url: http://arxiv.org/abs/2307.15567v3
- Date: Mon, 22 Jan 2024 13:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:15:49.483904
- Title: Panoptic Scene Graph Generation with Semantics-Prototype Learning
- Title(参考訳): セマンティックス-プロトタイプ学習によるパノプティクスシーングラフ生成
- Authors: Li Li, Wei Ji, Yiming Wu, Mengze Li, You Qin, Lina Wei, Roger
Zimmermann
- Abstract要約: Panoptic Scene Graph Generation (PSG)は、オブジェクトを解析し、それらの関係(述語)を予測し、人間の言語と視覚シーンを結びつける。
アノテーションの言語選好と述語間の意味的な重複は、偏りのある述語アノテーションにつながる。
そこで我々はADTransという新しいフレームワークを提案し、バイアス付き述語アノテーションを情報化と統一化に適応的に転送する。
- 参考スコア(独自算出の注目度): 23.759498629378772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph Generation (PSG) parses objects and predicts their
relationships (predicate) to connect human language and visual scenes. However,
different language preferences of annotators and semantic overlaps between
predicates lead to biased predicate annotations in the dataset, i.e. different
predicates for same object pairs. Biased predicate annotations make PSG models
struggle in constructing a clear decision plane among predicates, which greatly
hinders the real application of PSG models. To address the intrinsic bias
above, we propose a novel framework named ADTrans to adaptively transfer biased
predicate annotations to informative and unified ones. To promise consistency
and accuracy during the transfer process, we propose to measure the invariance
of representations in each predicate class, and learn unbiased prototypes of
predicates with different intensities. Meanwhile, we continuously measure the
distribution changes between each presentation and its prototype, and
constantly screen potential biased data. Finally, with the unbiased
predicate-prototype representation embedding space, biased annotations are
easily identified. Experiments show that ADTrans significantly improves the
performance of benchmark models, achieving a new state-of-the-art performance,
and shows great generalization and effectiveness on multiple datasets.
- Abstract(参考訳): panoptic scene graph generation (psg)はオブジェクトを解析し、人間の言語と視覚シーンを接続するための関係(述語)を予測する。
しかし、アノテータの異なる言語選好と述語間の意味的重複はデータセット内の偏りのある述語アノテーション、すなわち同じオブジェクト対に対する述語を導く。
バイアス付き述語アノテーションにより、PSGモデルは述語間の明確な決定平面を構築するのに苦労する。
上記の本質的バイアスに対処するため,ADTransという新しいフレームワークを提案し,バイアス付き述語アノテーションを情報的かつ統一的なアノテーションに適応的に変換する。
転送過程における一貫性と正確性を約束するため,各述語クラスにおける表現の不分散を計測し,異なる強度を持つ述語の偏りのないプロトタイプを学習する。
一方,各プレゼンテーションとプロトタイプ間の分布変化を連続的に計測し,バイアスのあるデータを常に表示する。
最後に、バイアスのない述語-原型表現埋め込み空間により、バイアス付きアノテーションを容易に識別できる。
実験により、ADTransはベンチマークモデルの性能を著しく改善し、新しい最先端のパフォーマンスを実現し、複数のデータセットに対して非常に一般化と有効性を示すことが示された。
関連論文リスト
- Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation [21.772806350802203]
シーングラフ生成(SGG)データセットでは、各対象物対に1つの述語をアノテートする。
既存のSGGモデルは、各ペアについてのみ述語を予測できるように訓練されている。
この結果、SGGモデルは述語に存在するかもしれない意味的多様性を見落としてしまう。
論文 参考訳(メタデータ) (2024-07-22T05:53:46Z) - Domain-wise Invariant Learning for Panoptic Scene Graph Generation [26.159312466958]
パノプティック・シーングラフ生成(PSG)は、オブジェクトの検出とそれに対応する関係(述語)の予測を含む。
偏見付き述語アノテーションの存在は、異なる述語間の明確な決定境界を確立する能力を妨げているため、PSGモデルにとって大きな課題となる。
本稿では,各対象物対内の予測予測リスクを測定することによって,潜在的なバイアスのあるアノテーションを推論する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:03:39Z) - Multi-Label Meta Weighting for Long-Tailed Dynamic Scene Graph
Generation [55.429541407920304]
対象と対象のペア間の述語認識は、本質的に不均衡であり、複数ラベルである。
最近の最先端の手法は、主に最も頻繁に発生する述語クラスに焦点を当てている。
偏りのある述語分布を扱うために,多言語メタラーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-06-16T18:14:23Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Unbiased Scene Graph Generation using Predicate Similarities [7.9112365100345965]
シーングラフは、画像に示されるオブジェクト間の関係のグラフィカル表現としてコンピュータビジョンに広く応用されている。
これらの応用は、長い尾の述語分布に起因する偏りのある訓練のため、まだ開発段階に達していない。
同様の述語群に対して,プロセスをいくつかのきめ細かい分類器に分割する新しい分類法を提案する。
Visual Genomeデータセットの広範な実験結果から,提案手法と既存のデバイアス手法を組み合わせることで,SGCls/SGDetタスクに挑戦する尾述語の性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-10-03T13:28:01Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。