論文の概要: Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing
- arxiv url: http://arxiv.org/abs/2211.01969v1
- Date: Thu, 3 Nov 2022 16:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:14:39.538241
- Title: Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing
- Title(参考訳): Visio-Lingual Message Passingによる自然画像の接地シーングラフ
- Authors: Aditay Tripathi, Anand Mishra, Anirban Chakraborty
- Abstract要約: 本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
- 参考スコア(独自算出の注目度): 17.63475613154152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a framework for jointly grounding objects that follow
certain semantic relationship constraints given in a scene graph. A typical
natural scene contains several objects, often exhibiting visual relationships
of varied complexities between them. These inter-object relationships provide
strong contextual cues toward improving grounding performance compared to a
traditional object query-only-based localization task. A scene graph is an
efficient and structured way to represent all the objects and their semantic
relationships in the image. In an attempt towards bridging these two modalities
representing scenes and utilizing contextual information for improving object
localization, we rigorously study the problem of grounding scene graphs on
natural images. To this end, we propose a novel graph neural network-based
approach referred to as Visio-Lingual Message PAssing Graph Neural Network
(VL-MPAG Net). In VL-MPAG Net, we first construct a directed graph with object
proposals as nodes and an edge between a pair of nodes representing a plausible
relation between them. Then a three-step inter-graph and intra-graph message
passing is performed to learn the context-dependent representation of the
proposals and query objects. These object representations are used to score the
proposals to generate object localization. The proposed method significantly
outperforms the baselines on four public datasets.
- Abstract(参考訳): 本稿では,シーングラフで与えられた意味的関係制約に従うオブジェクトを協調的に接地する枠組みを提案する。
典型的な自然のシーンはいくつかの物体を含み、しばしばそれらの間の様々な複雑さの視覚的関係を示す。
これらのオブジェクト間の関係は、従来のオブジェクトクエリオンリーのローカライゼーションタスクと比較して、基盤性能を改善するための強いコンテキスト的手がかりを提供する。
シーングラフは、画像内のすべてのオブジェクトとその意味関係を表現する効率的で構造化された方法である。
シーンを表現する2つのモダリティを橋渡しし,文脈情報を利用してオブジェクトのローカライゼーションを改善するために,自然画像上でシーングラフを接地する問題を厳格に検討する。
そこで本研究では,VL-MPAGネット(Vizio-Lingual Message PAssing Graph Neural Network)と呼ばれる,グラフニューラルネットワークに基づく新しいアプローチを提案する。
VL-MPAG Netでは、まず、ノードとしてのオブジェクト提案と、それら間の妥当な関係を表す一対のノード間のエッジを持つ有向グラフを構築する。
そして、3段階のインターグラフおよびイントラグラフメッセージパッシングを行い、提案とクエリオブジェクトのコンテキスト依存表現を学習する。
これらのオブジェクト表現は、オブジェクトのローカライゼーションを生成する提案の評価に使用される。
提案手法は4つの公開データセットのベースラインを著しく上回っている。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Unbiased Heterogeneous Scene Graph Generation with Relation-aware
Message Passing Neural Network [9.779600950401315]
関係認識コンテキストをキャプチャする不偏不均質なシーングラフ生成(HetSGG)フレームワークを提案する。
我々は、画像のコンテキスト情報を集約するRMP(Relation-Aware Message Passing Neural Network)と呼ばれる新しいメッセージパッシング層を考案した。
論文 参考訳(メタデータ) (2022-12-01T11:25:36Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。