論文の概要: Semantic Compositional Learning for Low-shot Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2108.08600v1
- Date: Thu, 19 Aug 2021 10:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 23:56:05.036736
- Title: Semantic Compositional Learning for Low-shot Scene Graph Generation
- Title(参考訳): 低ショットシーングラフ生成のための意味合成学習
- Authors: Tao He, Lianli Gao, Jingkuan Song, Jianfei Cai, Yuan-Fang Li
- Abstract要約: 多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
- 参考スコア(独自算出の注目度): 122.51930904132685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graphs provide valuable information to many downstream tasks. Many
scene graph generation (SGG) models solely use the limited annotated relation
triples for training, leading to their underperformance on low-shot (few and
zero) scenarios, especially on the rare predicates. To address this problem, we
propose a novel semantic compositional learning strategy that makes it possible
to construct additional, realistic relation triples with objects from different
images. Specifically, our strategy decomposes a relation triple by identifying
and removing the unessential component and composes a new relation triple by
fusing with a semantically or visually similar object from a visual components
dictionary, whilst ensuring the realisticity of the newly composed triple.
Notably, our strategy is generic and can be combined with existing SGG models
to significantly improve their performance. We performed a comprehensive
evaluation on the benchmark dataset Visual Genome. For three recent SGG models,
adding our strategy improves their performance by close to 50\%, and all of
them substantially exceed the current state-of-the-art.
- Abstract(参考訳): シーングラフは多くの下流タスクに貴重な情報を提供する。
多くのシーングラフ生成(SGG)モデルは、訓練に限定されたアノテート関係のトリプルのみを使用し、特に稀な述語において、低ショット(フェースとゼロ)のシナリオでパフォーマンスが低下する。
この問題に対処するために,異なる画像からのオブジェクトと現実的な3重関係の構築を可能にする,新しい意味合成学習戦略を提案する。
具体的には, 意味的, 視覚的に類似したオブジェクトと視覚的コンポーネント辞書とを融合させて, 新たに構成した3つのコンポーネントの現実性を確保しながら, 関係を3つに分解し, 関係を3つに分解する。
特に,我々の戦略は汎用的であり,既存のSGGモデルと組み合わせて性能を大幅に向上させることができる。
ベンチマークデータセットであるVisual Genomeの総合評価を行った。
最近の3つのsggモデルでは、我々の戦略を追加することで、パフォーマンスが50\%近く向上し、それらすべてが現在の最先端を実質的に上回っています。
関連論文リスト
- Leveraging Predicate and Triplet Learning for Scene Graph Generation [31.09787444957997]
SGG(Scene Graph Generation)は、エンティティを特定し、関係トリプルを予測することを目的としている。
本稿では,大きめの述語に加えて細粒度三重項キューを利用するためのDRMネットワークを提案する。
提案手法は,Visual Genome, Open Image, GQAデータセット上での最先端性能を確立する。
論文 参考訳(メタデータ) (2024-06-04T07:23:41Z) - DSGG: Dense Relation Transformer for an End-to-end Scene Graph Generation [13.058196732927135]
シーングラフ生成は、画像内のオブジェクト間の詳細な空間的および意味的な関係をキャプチャすることを目的としている。
既存のTransformerベースのメソッドは、オブジェクトに対して異なるクエリを使用し、述語するか、関係トリプレットに対して全体的クエリを利用する。
本稿では,シーングラフ検出を直接グラフ予測問題とみなす,DSGGと呼ばれるトランスフォーマーベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T23:43:30Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes [89.75025195440287]
既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
論文 参考訳(メタデータ) (2022-03-10T07:26:15Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Not All Relations are Equal: Mining Informative Labels for Scene Graph
Generation [48.21846438269506]
シーングラフ生成(SGG)は、オブジェクトのペア間の多様な相互作用をキャプチャすることを目的としている。
既存のSGG法では、トレーニングデータに様々なバイアスがあるため、視覚的およびテキスト的相関に関する複雑な推論が得られない。
本稿では,その情報性に基づいて関係ラベルを利用するSGGトレーニングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-26T14:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。