論文の概要: Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning
- arxiv url: http://arxiv.org/abs/2208.08165v1
- Date: Wed, 17 Aug 2022 09:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:04:47.379483
- Title: Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning
- Title(参考訳): Prompt-based Finetuningによるオープン語彙シーングラフ生成に向けて
- Authors: Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li
- Abstract要約: シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
- 参考スコア(独自算出の注目度): 84.39787427288525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graph generation (SGG) is a fundamental task aimed at detecting visual
relations between objects in an image. The prevailing SGG methods require all
object classes to be given in the training set. Such a closed setting limits
the practical application of SGG. In this paper, we introduce open-vocabulary
scene graph generation, a novel, realistic and challenging setting in which a
model is trained on a set of base object classes but is required to infer
relations for unseen target object classes. To this end, we propose a two-step
method that firstly pre-trains on large amounts of coarse-grained
region-caption data and then leverages two prompt-based techniques to finetune
the pre-trained model without updating its parameters. Moreover, our method can
support inference over completely unseen object classes, which existing methods
are incapable of handling. On extensive experiments on three benchmark
datasets, Visual Genome, GQA, and Open-Image, our method significantly
outperforms recent, strong SGG methods on the setting of Ov-SGG, as well as on
the conventional closed SGG.
- Abstract(参考訳): シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
一般的なSGGメソッドは、トレーニングセットで与えられるすべてのオブジェクトクラスを必要とします。
このような閉じた設定は、SGGの実用的応用を制限する。
本稿では,ベースオブジェクトクラスの集合上でモデルをトレーニングするが,対象オブジェクトクラスを対象としない関係を推測する必要がある,斬新で現実的で挑戦的な設定であるopen-vocabulary scene graph generationを提案する。
そこで本研究では,まず,粒度の粗粒度データに対して事前学習を行い,次いで2つのプロンプトベース手法を用いてパラメータを更新せずに事前学習したモデルを微調整する2段階法を提案する。
さらに,既存のメソッドでは処理が不可能なオブジェクトクラスに対する推論もサポートする。
3つのベンチマークデータセット(Visual Genome, GQA, Open-Image)に対する広範な実験では,Ov-SGGの設定や従来のクローズドSGGよりも,最近の強力なSGG法よりも優れていた。
関連論文リスト
- Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文 参考訳(メタデータ) (2024-05-21T09:56:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Towards Lifelong Scene Graph Generation with Knowledge-ware In-context
Prompt Learning [24.98058940030532]
画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。
この研究は、先行関係予測のスイートに固有の落とし穴に対処しようと試みている。
事前訓練された言語モデルにおける文脈内学習の成果に触発されて、我々のアプローチは関係を予測できる能力をモデルに付与する。
論文 参考訳(メタデータ) (2024-01-26T03:43:22Z) - Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。
SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。
各種SGGモデルにおけるST-SGGの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-18T08:10:34Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。