論文の概要: Learning Similarity between Scene Graphs and Images with Transformers
- arxiv url: http://arxiv.org/abs/2304.00590v1
- Date: Sun, 2 Apr 2023 18:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:10:56.750880
- Title: Learning Similarity between Scene Graphs and Images with Transformers
- Title(参考訳): トランスフォーマーを用いたシーングラフと画像の類似性学習
- Authors: Yuren Cong, Wentong Liao, Bodo Rosenhahn, Michael Ying Yang
- Abstract要約: シーングラフ生成のための新しい評価指標としてR精度計測画像検索精度を導入する。
シーングラフエンコーダとして大きな可能性を示すグラフ変換器の有効性を示すために,一連の実験を行った。
- 参考スコア(独自算出の注目度): 34.96241476884327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation is conventionally evaluated by (mean) Recall@K, which
measures the ratio of correctly predicted triplets that appear in the ground
truth. However, such triplet-oriented metrics cannot capture the global
semantic information of scene graphs, and measure the similarity between images
and generated scene graphs. The usability of scene graphs is therefore limited
in downstream tasks. To address this issue, a framework that can measure the
similarity of scene graphs and images is urgently required. Motivated by the
successful application of Contrastive Language-Image Pre-training (CLIP), we
propose a novel contrastive learning framework consisting of a graph
Transformer and an image Transformer to align scene graphs and their
corresponding images in the shared latent space. To enable the graph
Transformer to comprehend the scene graph structure and extract representative
features, we introduce a graph serialization technique that transforms a scene
graph into a sequence with structural encoding. Based on our framework, we
introduce R-Precision measuring image retrieval accuracy as a new evaluation
metric for scene graph generation and establish new benchmarks for the Visual
Genome and Open Images datasets. A series of experiments are further conducted
to demonstrate the effectiveness of the graph Transformer, which shows great
potential as a scene graph encoder.
- Abstract(参考訳): シーングラフの生成は(平均)Recall@Kによって評価され、これは地上の真実に現れる正確な予測三重項の比率を測定する。
しかし、このようなトリプレット指向のメトリクスは、シーングラフのグローバルな意味情報を捉えることができず、画像と生成されたシーングラフの類似性を測定する。
したがって、シーングラフのユーザビリティは下流タスクで制限される。
この問題に対処するためには、シーングラフと画像の類似性を測定するフレームワークが必要である。
コントラスト言語-画像事前学習(clip)の成功に動機づけられて,グラフトランスフォーマと画像トランスフォーマによる,シーングラフとその対応画像を共有潜在空間に整列する新しいコントラスト学習フレームワークを提案する。
グラフ変換器はシーングラフの構造を理解して代表的特徴を抽出するために,シーングラフを構造的エンコーディングでシーケンスに変換するグラフシリアライズ手法を導入する。
この枠組みに基づき,シーングラフ生成のための新しい評価指標としてr-precision測定画像検索精度を導入し,視覚ゲノムとオープン画像データセットの新しいベンチマークを確立する。
さらに,シーングラフエンコーダとしての可能性を示すグラフトランスの有効性を示すために,一連の実験が実施された。
関連論文リスト
- Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs [0.0]
シーングラフから画像を生成する新しい手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
実験により,本手法は標準ベンチマークにおける既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-25T11:46:31Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Image Scene Graph Generation (SGG) Benchmark [58.33119409657256]
画像シーングラフ生成(オブジェクト、関係検出)への関心が高まっている。
優れたベンチマークが欠如しているため、異なるシーングラフ生成モデルの報告結果と直接比較することができない。
我々は,マスマルクン・ベンチマークといくつかの人気モデルに基づく,待望のシーングラフ生成ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-07-27T05:10:09Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。