論文の概要: GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific
Narratives
- arxiv url: http://arxiv.org/abs/2312.04314v1
- Date: Thu, 7 Dec 2023 14:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:41:14.644995
- Title: GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific
Narratives
- Title(参考訳): GPT4SGG: 全体的および地域固有の物語からのシーングラフの合成
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang, and Changwen Chen
- Abstract要約: GPT4SGGを導入し、全体像と地域固有の物語からシーングラフを合成する。
このような画像データの表現とタスク固有のプロンプトにより、LCM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。
GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 69.36723767339001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning scene graphs from natural language descriptions has proven to be a
cheap and promising scheme for Scene Graph Generation (SGG). However, such
unstructured caption data and its processing are troubling the learning an
acurrate and complete scene graph. This dilema can be summarized as three
points. First, traditional language parsers often fail to extract meaningful
relationship triplets from caption data. Second, grounding unlocalized objects
in parsed triplets will meet ambiguity in visual-language alignment. Last,
caption data typically are sparse and exhibit bias to partial observations of
image content. These three issues make it hard for the model to generate
comprehensive and accurate scene graphs. To fill this gap, we propose a simple
yet effective framework, GPT4SGG, to synthesize scene graphs from holistic and
region-specific narratives. The framework discards traditional language parser,
and localize objects before obtaining relationship triplets. To obtain
relationship triplets, holistic and dense region-specific narratives are
generated from the image. With such textual representation of image data and a
task-specific prompt, an LLM, particularly GPT-4, directly synthesizes a scene
graph as "pseudo labels". Experimental results showcase GPT4SGG significantly
improves the performance of SGG models trained on image-caption data. We
believe this pioneering work can motivate further research into mining the
visual reasoning capabilities of LLMs.
- Abstract(参考訳): 自然言語記述からシーングラフを学習することは、SGG(Scene Graph Generation)の安価で有望なスキームであることが証明されている。
しかし、そのような非構造化キャプションデータとその処理は、アキュレートで完全なシーングラフの学習を悩ませている。
この双対は三点にまとめることができる。
まず、従来の言語パーサは、キャプションデータから意味のある関係三重項を抽出できないことが多い。
第二に、解析された三重項における非局在オブジェクトの接地は、視覚的言語アライメントにおけるあいまいさを満たす。
最後に、キャプションデータは通常スパースであり、画像内容の部分的な観察に偏りを示す。
これら3つの問題は、モデルが包括的で正確なシーングラフを生成するのを難しくする。
このギャップを埋めるために,総合的および地域固有の物語からシーングラフを合成する,単純かつ効果的なフレームワークであるgpt4sggを提案する。
このフレームワークは従来の言語パーサを捨て、関係三重項を得る前にオブジェクトをローカライズする。
関係三重項を得るには、画像から全体的かつ密集した地域固有の物語を生成する。
このような画像データのテキスト表現とタスク固有のプロンプトにより、LPM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。
GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
この先駆的な研究は、LLMの視覚的推論能力のマイニングに関するさらなる研究を動機付けることができると考えている。
関連論文リスト
- SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction [16.643252717745348]
本稿では,3次元シーングラフのための言語ベースの事前学習手法を提案する。
一般的な視覚言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
提案手法は,メインセマンティックな3Dシーングラフベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-10-25T09:26:16Z) - LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation [27.97296273461145]
WSSGG(Weakly Supervised Scene Graph Generation)研究は、最近、完全に教師されたアプローチの代替として現れた。
弱教師付きSGG(LLM4SGG)のための新しいアプローチ、すなわちLarge Language Modelを提案する。
Recall@Kと平均Recall@Kは、最先端のWSSGG法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-10-16T13:49:46Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Linguistic Structures as Weak Supervision for Visual Scene Graph
Generation [39.918783911894245]
キャプション内の言語構造がシーングラフ生成にどのように役立つかを示す。
提案手法は, 個々の三重項間の関係や, 対象物や対象物の文脈について, キャプションに記載した情報をキャプチャする。
Web上の多モーダルデータの大規模かつ多様なソースを考えると、言語的監督はクラウドソーシングされた三つ子よりもスケーラブルである。
論文 参考訳(メタデータ) (2021-05-28T17:20:27Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。