論文の概要: RepSGG: Novel Representations of Entities and Relationships for Scene
Graph Generation
- arxiv url: http://arxiv.org/abs/2309.03240v1
- Date: Wed, 6 Sep 2023 05:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:30:02.226461
- Title: RepSGG: Novel Representations of Entities and Relationships for Scene
Graph Generation
- Title(参考訳): repsgg:シーングラフ生成のためのエンティティと関係の新しい表現
- Authors: Hengyue Liu, Bir Bhanu
- Abstract要約: RepSGGは、対象をクエリとして、オブジェクトをキーとして、そしてそれらの関係を、ペアワイズクエリとキー間の最大の注意重みとして定式化する。
RepSGGは、エンティティとリレーションシップのためのよりきめ細やかな表現力によって、関係推論のための意味的識別的および代表的ポイントをサンプリングすることを学ぶ。
RepSGGは、高速な推論速度でVisual GenomeとOpen Images V6データセットの最先端または同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 27.711809069547808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) has achieved significant progress recently.
However, most previous works rely heavily on fixed-size entity representations
based on bounding box proposals, anchors, or learnable queries. As each
representation's cardinality has different trade-offs between performance and
computation overhead, extracting highly representative features efficiently and
dynamically is both challenging and crucial for SGG. In this work, a novel
architecture called RepSGG is proposed to address the aforementioned
challenges, formulating a subject as queries, an object as keys, and their
relationship as the maximum attention weight between pairwise queries and keys.
With more fine-grained and flexible representation power for entities and
relationships, RepSGG learns to sample semantically discriminative and
representative points for relationship inference. Moreover, the long-tailed
distribution also poses a significant challenge for generalization of SGG. A
run-time performance-guided logit adjustment (PGLA) strategy is proposed such
that the relationship logits are modified via affine transformations based on
run-time performance during training. This strategy encourages a more balanced
performance between dominant and rare classes. Experimental results show that
RepSGG achieves the state-of-the-art or comparable performance on the Visual
Genome and Open Images V6 datasets with fast inference speed, demonstrating the
efficacy and efficiency of the proposed methods.
- Abstract(参考訳): SGG(Scene Graph Generation)は近年大きな進歩を遂げている。
しかしながら、以前のほとんどの作品は、境界ボックスの提案、アンカー、学習可能なクエリに基づく固定サイズのエンティティ表現に大きく依存している。
各表現の濃度はパフォーマンスと計算オーバーヘッドのトレードオフが異なるため、高い代表的特徴の抽出はsggにとって困難かつ不可欠である。
本研究では,対象をクエリとして,対象をキーとして,それらの関係をペアワイズクエリとキーの間の最大注意重みとして定式化する,repsggと呼ばれる新しいアーキテクチャを提案する。
エンティティとリレーションのためのよりきめ細かい柔軟な表現力を持つrepsggは、関係推論のための意味論的差別的および代表的ポイントをサンプリングすることを学ぶ。
さらに、長い尾の分布もまた、SGGの一般化に重大な課題をもたらす。
トレーニング中の実行時のパフォーマンスに基づいてアフィン変換によって関係ロジットを変更できるように,実行時パフォーマンス誘導ロジット調整(PGLA)戦略を提案する。
この戦略は、支配クラスとレアクラスの間のよりバランスのとれたパフォーマンスを促進する。
実験の結果,repsggは,提案手法の有効性と効率を実証し,視覚的ゲノムおよびオープン画像v6データセット上で,最先端または同等の性能を高速に達成できることが示されている。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文 参考訳(メタデータ) (2024-05-21T09:56:48Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Mitigating Semantic Confusion from Hostile Neighborhood for Graph Active
Learning [38.5372139056485]
Graph Active Learning(GAL)は、グラフニューラルネットワーク(GNN)のパフォーマンスを最大化するためのアノテーションのための、グラフで最も情報に富むノードを見つけることを目的としている。
Gal戦略は、特にグラフがノイズの多い場合、選択したトレーニングセットに意味的な混乱をもたらす可能性がある。
本稿では,意味的混乱を緩和するために,グラフのためのセマンティック・アウェア・アクティブ・ラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T07:06:54Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。