論文の概要: GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific
Narratives
- arxiv url: http://arxiv.org/abs/2312.04314v1
- Date: Thu, 7 Dec 2023 14:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:41:14.644995
- Title: GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific
Narratives
- Title(参考訳): GPT4SGG: 全体的および地域固有の物語からのシーングラフの合成
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang, and Changwen Chen
- Abstract要約: GPT4SGGを導入し、全体像と地域固有の物語からシーングラフを合成する。
このような画像データの表現とタスク固有のプロンプトにより、LCM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。
GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 69.36723767339001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning scene graphs from natural language descriptions has proven to be a
cheap and promising scheme for Scene Graph Generation (SGG). However, such
unstructured caption data and its processing are troubling the learning an
acurrate and complete scene graph. This dilema can be summarized as three
points. First, traditional language parsers often fail to extract meaningful
relationship triplets from caption data. Second, grounding unlocalized objects
in parsed triplets will meet ambiguity in visual-language alignment. Last,
caption data typically are sparse and exhibit bias to partial observations of
image content. These three issues make it hard for the model to generate
comprehensive and accurate scene graphs. To fill this gap, we propose a simple
yet effective framework, GPT4SGG, to synthesize scene graphs from holistic and
region-specific narratives. The framework discards traditional language parser,
and localize objects before obtaining relationship triplets. To obtain
relationship triplets, holistic and dense region-specific narratives are
generated from the image. With such textual representation of image data and a
task-specific prompt, an LLM, particularly GPT-4, directly synthesizes a scene
graph as "pseudo labels". Experimental results showcase GPT4SGG significantly
improves the performance of SGG models trained on image-caption data. We
believe this pioneering work can motivate further research into mining the
visual reasoning capabilities of LLMs.
- Abstract(参考訳): 自然言語記述からシーングラフを学習することは、SGG(Scene Graph Generation)の安価で有望なスキームであることが証明されている。
しかし、そのような非構造化キャプションデータとその処理は、アキュレートで完全なシーングラフの学習を悩ませている。
この双対は三点にまとめることができる。
まず、従来の言語パーサは、キャプションデータから意味のある関係三重項を抽出できないことが多い。
第二に、解析された三重項における非局在オブジェクトの接地は、視覚的言語アライメントにおけるあいまいさを満たす。
最後に、キャプションデータは通常スパースであり、画像内容の部分的な観察に偏りを示す。
これら3つの問題は、モデルが包括的で正確なシーングラフを生成するのを難しくする。
このギャップを埋めるために,総合的および地域固有の物語からシーングラフを合成する,単純かつ効果的なフレームワークであるgpt4sggを提案する。
このフレームワークは従来の言語パーサを捨て、関係三重項を得る前にオブジェクトをローカライズする。
関係三重項を得るには、画像から全体的かつ密集した地域固有の物語を生成する。
このような画像データのテキスト表現とタスク固有のプロンプトにより、LPM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。
GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
この先駆的な研究は、LLMの視覚的推論能力のマイニングに関するさらなる研究を動機付けることができると考えている。
関連論文リスト
- Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction [16.643252717745348]
本稿では,3次元シーングラフのための言語ベースの事前学習手法を提案する。
一般的な視覚言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
提案手法は,メインセマンティックな3Dシーングラフベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-10-25T09:26:16Z) - LLM4SGG: Large Language Model for Weakly Supervised Scene Graph
Generation [29.37568710952893]
WSSGG(Weakly Supervised Scene Graph Generation)研究は、最近、完全に教師されたアプローチの代替として現れた。
弱教師付きSGG(LLM4SGG)のための新しいアプローチ、すなわちLarge Language Modelを提案する。
Recall@Kと平均Recall@Kは、最先端のWSSGG法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-16T13:49:46Z) - TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation [39.918783911894245]
キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
論文 参考訳(メタデータ) (2021-05-28T17:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。