論文の概要: SGRAM: Improving Scene Graph Parsing via Abstract Meaning Representation
- arxiv url: http://arxiv.org/abs/2210.08675v1
- Date: Mon, 17 Oct 2022 00:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:24:05.402346
- Title: SGRAM: Improving Scene Graph Parsing via Abstract Meaning Representation
- Title(参考訳): SGRAM:抽象的意味表現によるシーングラフ解析の改善
- Authors: Woo Suk Choi, Yu-Jung Heo and Byoung-Tak Zhang
- Abstract要約: シーングラフ(Scene graph)は、画像やテキストからグラフの形式としてモデル化可能な、構造化されたセマンティック表現である。
本稿では,視覚シーンのテキスト記述からシーングラフを解析する問題に焦点をあてる。
抽象的意味表現を用いた簡易で効果的な2段階のシーングラフ解析フレームワークを設計する。
- 参考スコア(独自算出の注目度): 24.93559076181481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph is structured semantic representation that can be modeled as a
form of graph from images and texts. Image-based scene graph generation
research has been actively conducted until recently, whereas text-based scene
graph generation research has not. In this paper, we focus on the problem of
scene graph parsing from textual description of a visual scene. The core idea
is to use abstract meaning representation (AMR) instead of the dependency
parsing mainly used in previous studies. AMR is a graph-based semantic
formalism of natural language which abstracts concepts of words in a sentence
contrary to the dependency parsing which considers dependency relationships on
all words in a sentence. To this end, we design a simple yet effective
two-stage scene graph parsing framework utilizing abstract meaning
representation, SGRAM (Scene GRaph parsing via Abstract Meaning
representation): 1) transforming a textual description of an image into an AMR
graph (Text-to-AMR) and 2) encoding the AMR graph into a Transformer-based
language model to generate a scene graph (AMR-to-SG). Experimental results show
the scene graphs generated by our framework outperforms the dependency
parsing-based model by 11.61\% and the previous state-of-the-art model using a
pre-trained Transformer language model by 3.78\%. Furthermore, we apply SGRAM
to image retrieval task which is one of downstream tasks for scene graph, and
confirm the effectiveness of scene graphs generated by our framework.
- Abstract(参考訳): シーングラフは、画像やテキストからグラフの形としてモデル化できる構造化された意味表現である。
画像ベースのシーングラフ生成研究は近年まで活発に行われてきたが,テキストベースのシーングラフ生成研究は行われていない。
本稿では,視覚シーンのテキスト記述からシーングラフを解析する問題に焦点を当てる。
中心となる考え方は、主に以前の研究で使われている依存性解析の代わりに抽象的意味表現(AMR)を使用することである。
amrは自然言語のグラフに基づく意味的形式論であり、文中のすべての単語に対する依存関係を考える依存解析とは対照的に、文中の単語の概念を抽象化する。
この目的のために,抽象的意味表現,SGRAM (Scene GRaph parsing via Abstract Meaning representation) を利用した,シンプルで効果的な2段階のシーングラフ解析フレームワークを設計する。
1)画像のテキスト記述をAMRグラフ(Text-to-AMR)に変換する
2) AMRグラフをトランスフォーマーベース言語モデルに符号化してシーングラフ(AMR-to-SG)を生成する。
実験結果から,本フレームワークが生成するシーングラフは,依存性解析に基づくモデルよりも11.61\%,事前学習したトランスフォーマー言語モデルを用いて前回のモデルより3.78\%上回ることがわかった。
さらに,シーングラフのダウンストリームタスクの一つである画像検索タスクにsgramを適用し,このフレームワークが生成するシーングラフの有効性を確認した。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - SPAN: Learning Similarity between Scene Graphs and Images with Transformers [29.582313604112336]
本稿では,シーングラフと画像の類似性を計測するScene graPh-imAge coNtrastive learning framework, SPANを提案する。
本稿では,シーングラフを構造的エンコーディングを伴うシーケンスに変換する新しいグラフシリアライズ手法を提案する。
論文 参考訳(メタデータ) (2023-04-02T18:13:36Z) - Visual Semantic Parsing: From Images to Abstract Meaning Representation [20.60579156219413]
自然言語処理の分野で広く使われている意味表現である抽象的意味表現(AMR)を活用することを提案する。
我々の視覚的AMRグラフは、視覚入力から外挿された高レベルな意味概念に焦点をあてて、言語的により理解されている。
本研究は,シーン理解の改善に向けた今後の重要な研究方向を示唆するものである。
論文 参考訳(メタデータ) (2022-10-26T17:06:42Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z) - Graph-Structured Referring Expression Reasoning in The Wild [105.95488002374158]
接地参照表現は、自然言語表現によって参照されるオブジェクトのイメージ中を特定することを目的としている。
本研究では,シーングラフとシーングラフの推論を行うために,シーングラフガイドモジュールネットワーク(SGMN)を提案する。
また,構造化参照式推論のための大規模実世界のデータセットRef-Reasoningを提案する。
論文 参考訳(メタデータ) (2020-04-19T11:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。