Fugu-MT 論文翻訳(概要): Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

論文の概要: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

arxiv url: http://arxiv.org/abs/2311.10988v1
Date: Sat, 18 Nov 2023 06:49:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 13:09:29.630923
Title: Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
Title（参考訳）: 拡大するシーングラフ境界:ビジュアルコンセプションアライメントと保持による完全にオープン語彙のシーングラフ生成
Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang and Changwen Chen
Abstract要約: SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。関係関連を持つオープンボキャブラリSGGのより困難な設定のために,提案手法は,画像キャプチャデータを利用した関係対応事前学習を統合する。
参考スコア（独自算出の注目度）: 74.42036028592705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene Graph Generation (SGG) offers a structured representation critical in many computer vision applications. Traditional SGG approaches, however, are limited by a closed-set assumption, restricting their ability to recognize only predefined object and relation categories. To overcome this, we categorize SGG scenarios into four distinct settings based on the node and edge: Closed-set SGG, Open Vocabulary (object) Detection-based SGG (OvD-SGG), Open Vocabulary Relation-based SGG (OvR-SGG), and Open Vocabulary Detection + Relation-based SGG (OvD+R-SGG). While object-centric open vocabulary SGG has been studied recently, the more challenging problem of relation-involved open-vocabulary SGG remains relatively unexplored. To fill this gap, we propose a unified framework named OvSGTR towards fully open vocabulary SGG from a holistic view. The proposed framework is an end-toend transformer architecture, which learns a visual-concept alignment for both nodes and edges, enabling the model to recognize unseen categories. For the more challenging settings of relation-involved open vocabulary SGG, the proposed approach integrates relation-aware pre-training utilizing image-caption data and retains visual-concept alignment through knowledge distillation. Comprehensive experimental results on the Visual Genome benchmark demonstrate the effectiveness and superiority of the proposed framework.
Abstract（参考訳）: シーングラフ生成(sgg)は多くのコンピュータビジョンアプリケーションで重要な構造化表現を提供する。しかしながら、従来のsggアプローチは、定義済みのオブジェクトと関係カテゴリのみを認識する能力を制限するクローズドセットの仮定によって制限される。これを解決するために,SGGシナリオを,ノードとエッジに基づいて4つの異なる設定に分類する。クローズドセットSGG,オープン語彙(オブジェクト)検出ベースSGG(OvD-SGG),オープン語彙関係ベースSGG(OvR-SGG),オープン語彙検出+リレーショナルSGG(OvD+R-SGG)。対象中心のオープン語彙 SGG は近年研究されているが、関係を伴うオープン語彙 SGG のより難しい問題は、比較的未解明のままである。このギャップを埋めるために,全体観から完全オープンボキャブラリsggに向けてovsgtrという統一フレームワークを提案する。提案するフレームワークはエンド・ツー・エンドのトランスフォーマーアーキテクチャであり、ノードとエッジの両方の視覚概念のアライメントを学習し、モデルが目に見えないカテゴリを認識できるようにする。関係関連を持つオープン語彙SGGのより困難な設定のために,提案手法は画像キャプチャデータを利用した関係対応事前学習を統合し,知識蒸留による視覚概念のアライメントを維持する。 Visual Genomeベンチマークの総合的な実験結果は、提案フレームワークの有効性と優位性を示している。

関連論文リスト

Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文参考訳（メタデータ） (2025-06-09T19:59:05Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations [13.055077747280917]
シーングラフ生成(SGG)は、視覚シーンを構造化グラフ表現に変換する。既存のSGGモデルは、しばしば必要不可欠な空間関係を見落とし、開語彙文脈における一般化に苦慮する。 LLaVA-SpaceSGG, LLaVA-SpaceSGGを提案する。
論文参考訳（メタデータ） (2024-12-09T09:18:32Z)
Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文参考訳（メタデータ） (2024-10-20T11:40:31Z)
HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-18T17:59:10Z)
Adaptive Self-training Framework for Fine-grained Scene Graph Generation [29.37568710952893]
シーングラフ生成(SGG)モデルは、ベンチマークデータセットに関する固有の問題に悩まされている。 SGG (ST-SGG) のための自己学習フレームワークを導入し, 注釈のない三つ子に擬似ラベルを割り当てる。各種SGGモデルにおけるST-SGGの有効性を検証する。
論文参考訳（メタデータ） (2024-01-18T08:10:34Z)
Adaptive Visual Scene Understanding: Incremental Scene Graph Generation [18.541428517746034]
シーングラフ生成(SGG)は、画像を分析し、オブジェクトとその関係に関する意味のある情報を抽出する。本稿では,関係の漸進性,シーンの漸進性,関係の一般化性という3つの学習体制からなるベンチマークを提案する。また、RASと呼ばれる「分析によるリプレイ」手法についても紹介する。
論文参考訳（メタデータ） (2023-10-02T21:02:23Z)
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-23T13:06:38Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文参考訳（メタデータ） (2022-03-18T09:14:13Z)
Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-01-08T03:46:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。