論文の概要: From Data to Modeling: Fully Open-vocabulary Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2505.20106v1
- Date: Mon, 26 May 2025 15:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.551098
- Title: From Data to Modeling: Fully Open-vocabulary Scene Graph Generation
- Title(参考訳): データからモデリングへ:完全にオープンな語彙のシーングラフ生成
- Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Chang Wen Chen,
- Abstract要約: OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
- 参考スコア(独自算出の注目度): 29.42202665594218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present OvSGTR, a novel transformer-based framework for fully open-vocabulary scene graph generation that overcomes the limitations of traditional closed-set models. Conventional methods restrict both object and relationship recognition to a fixed vocabulary, hindering their applicability to real-world scenarios where novel concepts frequently emerge. In contrast, our approach jointly predicts objects (nodes) and their inter-relationships (edges) beyond predefined categories. OvSGTR leverages a DETR-like architecture featuring a frozen image backbone and text encoder to extract high-quality visual and semantic features, which are then fused via a transformer decoder for end-to-end scene graph prediction. To enrich the model's understanding of complex visual relations, we propose a relation-aware pre-training strategy that synthesizes scene graph annotations in a weakly supervised manner. Specifically, we investigate three pipelines--scene parser-based, LLM-based, and multimodal LLM-based--to generate transferable supervision signals with minimal manual annotation. Furthermore, we address the common issue of catastrophic forgetting in open-vocabulary settings by incorporating a visual-concept retention mechanism coupled with a knowledge distillation strategy, ensuring that the model retains rich semantic cues during fine-tuning. Extensive experiments on the VG150 benchmark demonstrate that OvSGTR achieves state-of-the-art performance across multiple settings, including closed-set, open-vocabulary object detection-based, relation-based, and fully open-vocabulary scenarios. Our results highlight the promise of large-scale relation-aware pre-training and transformer architectures for advancing scene graph generation towards more generalized and reliable visual understanding.
- Abstract(参考訳): OvSGTRは、従来のクローズドセットモデルの限界を克服する、完全にオープンなシーングラフ生成のためのトランスフォーマーベースの新しいフレームワークである。
従来の手法では、オブジェクト認識と関係認識の両方を固定語彙に制限し、新しい概念が頻繁に出現する現実世界のシナリオへの適用を妨げている。
対照的に、我々のアプローチは、事前定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
OvSGTRは、凍結した画像バックボーンとテキストエンコーダを備えたDETRのようなアーキテクチャを利用して、高品質な視覚的および意味的な特徴を抽出し、最後から終わりまでのシーングラフ予測のために変換器デコーダを介して融合する。
複雑な視覚関係に対するモデルの理解を深めるために,シーングラフアノテーションを弱教師付きで合成する関係対応事前学習戦略を提案する。
具体的には,Scene parser-based, LLM-based, multimodal LLM-basedの3つのパイプラインを調査し,手動で最小限のアノテーションで転送可能な監視信号を生成する。
さらに、知識蒸留戦略と相まって視覚概念保持機構を組み込むことにより、オープン語彙設定における破滅的忘れの一般的な問題に対処し、微調整中にモデルがリッチな意味的手がかりを保持することを保証する。
VG150ベンチマークの大規模な実験により、OvSGTRは、クローズドセット、オープンボキャブラリオブジェクト検出ベース、リレーショナルベース、完全オープンボキャブラリシナリオなど、複数の設定で最先端のパフォーマンスを達成することが示された。
本結果は,より汎用的で信頼性の高い視覚的理解に向けて,シーングラフ生成を推し進めるための大規模リレーションアウェア事前学習およびトランスフォーマーアーキテクチャの約束を明らかにするものである。
関連論文リスト
- Leveraging Foundation Models for Multimodal Graph-Based Action Recognition [1.533133219129073]
動的視覚符号化のためのビデオMAEとコンテキストテキスト埋め込みのためのBERTを統合したグラフベースのフレームワークを提案する。
提案手法は,多様なベンチマークデータセット上で,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-21T07:15:14Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - RelTR: Relation Transformer for Scene Graph Generation [34.1193503312965]
エンコーダ-デコーダアーキテクチャを用いたシーングラフ生成モデルRelTRを提案する。
モデルは、異なる種類の注意機構を用いて、固定サイズの三重項の主観的対象を推定する。
Visual GenomeとOpen Images V6データセットの実験は、我々のモデルの優れた性能と高速な推論を実証している。
論文 参考訳(メタデータ) (2022-01-27T11:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。