論文の概要: Tackling the Challenges in Scene Graph Generation with Local-to-Global
Interactions
- arxiv url: http://arxiv.org/abs/2106.08543v1
- Date: Wed, 16 Jun 2021 03:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 07:26:18.521003
- Title: Tackling the Challenges in Scene Graph Generation with Local-to-Global
Interactions
- Title(参考訳): 局所-グローバル相互作用によるシーングラフ生成の課題
- Authors: Sangmin Woo, Junhyug Noh, Kangil Kim
- Abstract要約: SGG(Scene Graph Generation)タスクの根底にある課題に対する新たな洞察を求めている。
この分析に触発され、我々は新しいSGGフレームワークLOGIN(LoGIN)を設計した。
本フレームワークは,シーングラフを設計により局所的・言語的に予測し,相補性を生かした。
- 参考スコア(独自算出の注目度): 4.726777092009554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we seek new insights into the underlying challenges of the
Scene Graph Generation (SGG) task. Quantitative and qualitative analysis of the
Visual Genome dataset implies -- 1) Ambiguity: even if inter-object
relationship contains the same object (or predicate), they may not be visually
or semantically similar, 2) Asymmetry: despite the nature of the relationship
that embodied the direction, it was not well addressed in previous studies, and
3) Higher-order contexts: leveraging the identities of certain graph elements
can help to generate accurate scene graphs. Motivated by the analysis, we
design a novel SGG framework, Local-to-Global Interaction Networks (LOGIN).
Locally, interactions extract the essence between three instances - subject,
object, and background - while baking direction awareness into the network by
constraining the input order. Globally, interactions encode the contexts
between every graph components -- nodes and edges. Also we introduce Attract &
Repel loss which finely adjusts predicate embeddings. Our framework enables
predicting the scene graph in a local-to-global manner by design, leveraging
the possible complementariness. To quantify how much LOGIN is aware of
relational direction, we propose a new diagnostic task called Bidirectional
Relationship Classification (BRC). We see that LOGIN can successfully
distinguish relational direction than existing methods (in BRC task) while
showing state-of-the-art results on the Visual Genome benchmark (in SGG task).
- Abstract(参考訳): 本研究では,SGG(Scene Graph Generation)タスクの根底にある課題について,新たな知見を求める。
1) 両義性: 対象間の関係が同一のオブジェクト(または述語)を含むとしても、視的または意味的に類似しない、2) 非対称性: 方向を具現化した関係の性質にもかかわらず、以前の研究ではうまく対処されていなかった、3) 上位のコンテキスト: あるグラフ要素のアイデンティティを活用することは、正確なシーングラフを生成するのに役立つ。
分析に動機づけられ,新しいsggフレームワークであるlocal-to-global interaction network (login) を設計した。
ローカルでは、インタラクションは主題、オブジェクト、背景の3つのインスタンス間の本質を抽出し、入力順序を制約することで方向認識をネットワークに焼き付ける。
グローバルに、相互作用はすべてのグラフコンポーネント – ノードとエッジ – の間のコンテキストをエンコードする。
また、述語埋め込みを微調整するAttract & Repel lossを導入する。
このフレームワークにより,局所的からグローバル的手法によるシーングラフの予測が可能となり,相補性が期待できる。
本研究では,双方向関係分類 (bidirectional relationship classification, brc) と呼ばれる新しい診断タスクを提案する。
LOGINは、Visual Genomeベンチマーク(SGGタスク)上で、既存の方法(BRCタスク)と、最先端の結果を示しながら、リレーショナルな方向を識別することに成功した。
関連論文リスト
- Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
グラフにおけるクロスタスクの一般性を学習するための新しいアプローチを提案する。
グラフ上のタスク空間を整列させるための基本的な学習インスタンスとしてタスクツリーを提案する。
その結果,グラフニューラルネットワークが多種多様なタスクツリーで事前訓練された場合,伝達可能な知識を取得することが示唆された。
論文 参考訳(メタデータ) (2024-12-21T02:07:43Z) - Beyond Entity Alignment: Towards Complete Knowledge Graph Alignment via Entity-Relation Synergy [14.459419325027612]
知識グラフアライメントは、個々の知識グラフの制限に対処するために、複数のソースからの知識を統合することを目的としている。
既存のモデルは、主にクロスグラフエンティティのリンクを強調するが、KG間の関係の整合性を見落としている。
本稿では,2つのサブタスクを反復的に最適化する新しい予測最大化モデルEREMを提案する。
論文 参考訳(メタデータ) (2024-07-25T03:40:09Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Hyper-relationship Learning Network for Scene Graph Generation [95.6796681398668]
本稿では,シーングラフ生成のためのハイパーリレーショナル学習ネットワークHLNを提案する。
我々は最も人気のあるSGGデータセット、すなわちVisual Genomeデータセット上でHLNを評価する。
例えば、提案されたHLNは、関係ごとのリコールを11.3%から13.1%に改善し、画像毎のリコールを19.8%から34.9%に維持する。
論文 参考訳(メタデータ) (2022-02-15T09:26:16Z) - DigNet: Digging Clues from Local-Global Interactive Graph for
Aspect-level Sentiment Classification [0.685316573653194]
アスペクトレベルの感情分類(ASC)では、最先端モデルは構文グラフまたは関係グラフをエンコードする。
我々は,対話的なエッジを通じて2つのグラフを縫い合わせることで,その利点をマージする,新しいローカル・グローバル・インタラクティブグラフを設計する。
本稿では,DigNetと呼ばれる新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-04T05:34:02Z) - Zero-Shot Scene Graph Relation Prediction through Commonsense Knowledge
Integration [9.203403318435486]
我々は,シーングラフ生成のためのコモンセンス知識を統合するフレームワークであるCommOnsense-integrAted sCenegrapHrElation pRediction (COACHER)を提案する。
具体的には、外部コモンセンス知識グラフにおいて、エンティティ周辺の近傍と経路をモデル化する新しいグラフマイニングパイプラインを開発する。
論文 参考訳(メタデータ) (2021-07-11T16:22:45Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。