論文の概要: Graph-Structured Referring Expression Reasoning in The Wild
- arxiv url: http://arxiv.org/abs/2004.08814v1
- Date: Sun, 19 Apr 2020 11:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 23:56:59.447840
- Title: Graph-Structured Referring Expression Reasoning in The Wild
- Title(参考訳): 野生におけるグラフ構造参照表現推論
- Authors: Sibei Yang, Guanbin Li, Yizhou Yu
- Abstract要約: 接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
- 参考スコア(独自算出の注目度): 105.95488002374158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding referring expressions aims to locate in an image an object referred
to by a natural language expression. The linguistic structure of a referring
expression provides a layout of reasoning over the visual contents, and it is
often crucial to align and jointly understand the image and the referring
expression. In this paper, we propose a scene graph guided modular network
(SGMN), which performs reasoning over a semantic graph and a scene graph with
neural modules under the guidance of the linguistic structure of the
expression. In particular, we model the image as a structured semantic graph,
and parse the expression into a language scene graph. The language scene graph
not only decodes the linguistic structure of the expression, but also has a
consistent representation with the image semantic graph. In addition to
exploring structured solutions to grounding referring expressions, we also
propose Ref-Reasoning, a large-scale real-world dataset for structured
referring expression reasoning. We automatically generate referring expressions
over the scene graphs of images using diverse expression templates and
functional programs. This dataset is equipped with real-world visual contents
as well as semantically rich expressions with different reasoning layouts.
Experimental results show that our SGMN not only significantly outperforms
existing state-of-the-art algorithms on the new Ref-Reasoning dataset, but also
surpasses state-of-the-art structured methods on commonly used benchmark
datasets. It can also provide interpretable visual evidences of reasoning. Data
and code are available at https://github.com/sibeiyang/sgmn
- Abstract(参考訳): 接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
参照表現の言語構造は、視覚的内容に対する推論のレイアウトを提供し、画像と参照表現を協調的に理解することがしばしば重要である。
本稿では,意味グラフ上で推論を行うシーングラフ誘導モジュラーネットワーク(sgmn)と,その表現の言語構造を指導するニューラルネットワークを用いたシーングラフを提案する。
特に,画像を構造化意味グラフとしてモデル化し,その表現を言語シーングラフに解析する。
言語シーングラフは、表現の言語構造をデコードするだけでなく、画像意味グラフと一貫した表現を持つ。
また,参照表現を基底とする構造化解の探索に加えて,構造化参照表現推論のための大規模実世界のデータセットRef-Reasoningを提案する。
多様な表現テンプレートと関数型プログラムを用いて画像のシーングラフ上の参照表現を自動的に生成する。
このデータセットは現実世界のビジュアルコンテンツと、推論レイアウトの異なるセマンティックにリッチな表現を備えています。
実験の結果,我々のSGMNは,新しいRef-Reasoningデータセットにおける既存の最先端アルゴリズムよりも優れているだけでなく,一般的なベンチマークデータセットにおける最先端構造化手法よりも優れていることがわかった。
推論の解釈可能な視覚的証拠を提供することもできる。
データとコードはhttps://github.com/sibeiyang/sgmnで入手できる。
関連論文リスト
- FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Visual Semantic Parsing: From Images to Abstract Meaning Representation [20.60579156219413]
自然言語処理の分野で広く使われている意味表現である抽象的意味表現(AMR)を活用することを提案する。
我々の視覚的AMRグラフは、視覚入力から外挿された高レベルな意味概念に焦点をあてて、言語的により理解されている。
本研究は,シーン理解の改善に向けた今後の重要な研究方向を示唆するものである。
論文 参考訳(メタデータ) (2022-10-26T17:06:42Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension [39.40351938417889]
Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-01T04:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。