論文の概要: Symbolic image detection using scene and knowledge graphs
- arxiv url: http://arxiv.org/abs/2206.04863v1
- Date: Fri, 10 Jun 2022 04:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:28:17.506174
- Title: Symbolic image detection using scene and knowledge graphs
- Title(参考訳): シーンと知識グラフを用いたシンボル画像検出
- Authors: Nasrin Kalanat and Adriana Kovashka
- Abstract要約: 画像のグラフ表現であるシーングラフを用いて、視覚的コンポーネントをキャプチャする。
本研究では,ConceptNetから抽出した事実を用いて,オブジェクトや属性を推論する知識グラフを生成する。
我々はさらにネットワークを拡張して、グラフの表現の重要性を学習するアテンションメカニズムを利用する。
- 参考スコア(独自算出の注目度): 39.49756199669471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sometimes the meaning conveyed by images goes beyond the list of objects they
contain; instead, images may express a powerful message to affect the viewers'
minds. Inferring this message requires reasoning about the relationships
between the objects, and general common-sense knowledge about the components.
In this paper, we use a scene graph, a graph representation of an image, to
capture visual components. In addition, we generate a knowledge graph using
facts extracted from ConceptNet to reason about objects and attributes. To
detect the symbols, we propose a neural network framework named SKG-Sym. The
framework first generates the representations of the scene graph of the image
and its knowledge graph using Graph Convolution Network. The framework then
fuses the representations and uses an MLP to classify them. We extend the
network further to use an attention mechanism which learn the importance of the
graph representations. We evaluate our methods on a dataset of advertisements,
and compare it with baseline symbolism classification methods (ResNet and VGG).
Results show that our methods outperform ResNet in terms of F-score and the
attention-based mechanism is competitive with VGG while it has much lower model
complexity.
- Abstract(参考訳): イメージによって伝達される意味は、それらが含むオブジェクトのリストを超えることもあるが、代わりに、画像は視聴者の心に影響を与える強力なメッセージを表現することがある。
このメッセージを推測するには、オブジェクト間の関係やコンポーネントに関する一般的な常識知識に関する推論が必要である。
本稿では,画像のグラフ表現であるシーングラフを用いて視覚成分をキャプチャする。
さらに,ConceptNetから抽出した事実を用いて知識グラフを生成し,オブジェクトや属性を推論する。
シンボルを検出するために,SKG-Symというニューラルネットワークフレームワークを提案する。
このフレームワークはまず、画像のシーングラフとそのナレッジグラフの表現をグラフ畳み込みネットワークを用いて生成する。
その後、フレームワークは表現を融合させ、MDPを使用してそれらを分類する。
さらにネットワークを拡張して,グラフ表現の重要性を学習するアテンション機構を利用する。
本手法を広告のデータセット上で評価し,ベースラインシンボル分類法(resnet,vgg)と比較する。
その結果,本手法はFスコアにおいてResNetよりも優れており,注意に基づくメカニズムはVGGと競合するが,モデル複雑性ははるかに低い。
関連論文リスト
- Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - Unbiased Heterogeneous Scene Graph Generation with Relation-aware
Message Passing Neural Network [9.779600950401315]
関係認識コンテキストをキャプチャする不偏不均質なシーングラフ生成(HetSGG)フレームワークを提案する。
我々は、画像のコンテキスト情報を集約するRMP(Relation-Aware Message Passing Neural Network)と呼ばれる新しいメッセージパッシング層を考案した。
論文 参考訳(メタデータ) (2022-12-01T11:25:36Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。