論文の概要: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph
Generation via Visual-Concept Alignment and Retention
- arxiv url: http://arxiv.org/abs/2311.10988v1
- Date: Sat, 18 Nov 2023 06:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:09:29.630923
- Title: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph
Generation via Visual-Concept Alignment and Retention
- Title(参考訳): 拡大するシーングラフ境界:ビジュアルコンセプションアライメントと保持による完全にオープン語彙のシーングラフ生成
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang and Changwen Chen
- Abstract要約: SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係関連を持つオープンボキャブラリSGGのより困難な設定のために,提案手法は,画像キャプチャデータを利用した関係対応事前学習を統合する。
- 参考スコア(独自算出の注目度): 74.42036028592705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) offers a structured representation critical in
many computer vision applications. Traditional SGG approaches, however, are
limited by a closed-set assumption, restricting their ability to recognize only
predefined object and relation categories. To overcome this, we categorize SGG
scenarios into four distinct settings based on the node and edge: Closed-set
SGG, Open Vocabulary (object) Detection-based SGG (OvD-SGG), Open Vocabulary
Relation-based SGG (OvR-SGG), and Open Vocabulary Detection + Relation-based
SGG (OvD+R-SGG). While object-centric open vocabulary SGG has been studied
recently, the more challenging problem of relation-involved open-vocabulary SGG
remains relatively unexplored. To fill this gap, we propose a unified framework
named OvSGTR towards fully open vocabulary SGG from a holistic view. The
proposed framework is an end-toend transformer architecture, which learns a
visual-concept alignment for both nodes and edges, enabling the model to
recognize unseen categories. For the more challenging settings of
relation-involved open vocabulary SGG, the proposed approach integrates
relation-aware pre-training utilizing image-caption data and retains
visual-concept alignment through knowledge distillation. Comprehensive
experimental results on the Visual Genome benchmark demonstrate the
effectiveness and superiority of the proposed framework.
- Abstract(参考訳): シーングラフ生成(sgg)は多くのコンピュータビジョンアプリケーションで重要な構造化表現を提供する。
しかしながら、従来のsggアプローチは、定義済みのオブジェクトと関係カテゴリのみを認識する能力を制限するクローズドセットの仮定によって制限される。
これを解決するために,SGGシナリオを,ノードとエッジに基づいて4つの異なる設定に分類する。クローズドセットSGG,オープン語彙(オブジェクト)検出ベースSGG(OvD-SGG),オープン語彙関係ベースSGG(OvR-SGG),オープン語彙検出+リレーショナルSGG(OvD+R-SGG)。
対象中心のオープン語彙 SGG は近年研究されているが、関係を伴うオープン語彙 SGG のより難しい問題は、比較的未解明のままである。
このギャップを埋めるために,全体観から完全オープンボキャブラリsggに向けてovsgtrという統一フレームワークを提案する。
提案するフレームワークはエンド・ツー・エンドのトランスフォーマーアーキテクチャであり、ノードとエッジの両方の視覚概念のアライメントを学習し、モデルが目に見えないカテゴリを認識できるようにする。
関係関連を持つオープン語彙SGGのより困難な設定のために,提案手法は画像キャプチャデータを利用した関係対応事前学習を統合し,知識蒸留による視覚概念のアライメントを維持する。
Visual Genomeベンチマークの総合的な実験結果は、提案フレームワークの有効性と優位性を示している。
関連論文リスト
- Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。
そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。
また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:10Z) - Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。
SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。
各種SGGモデルにおけるST-SGGの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-18T08:10:34Z) - Adaptive Visual Scene Understanding: Incremental Scene Graph Generation [18.541428517746034]
シーングラフ生成(SGG)は、画像を分析し、オブジェクトとその関係に関する意味のある情報を抽出する。
本稿では,関係の漸進性,シーンの漸進性,関係の一般化性という3つの学習体制からなるベンチマークを提案する。
また、RASと呼ばれる「分析によるリプレイ」手法についても紹介する。
論文 参考訳(メタデータ) (2023-10-02T21:02:23Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。