論文の概要: VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2512.05524v2
- Date: Mon, 08 Dec 2025 03:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 15:54:52.384815
- Title: VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation
- Title(参考訳): VOST-SGG:VLM支援ワンステージ時空間グラフ生成
- Authors: Chinthani Sugandhika, Chen Li, Deepu Rajan, Basura Fernando,
- Abstract要約: VOST-SGGはVLMが支援するワンステージST-SGGフレームワークであり、視覚言語モデルの常識推論機能を統合する。
述語分類を改善するために,視覚,テキスト,空間的手がかりを融合したマルチモーダル特徴バンクを提案する。
提案手法は,ST-SGGにおけるVLM支援型セマンティックプリエントとマルチモーダル機能の統合の有効性を検証し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 18.15310805625469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal scene graph generation (ST-SGG) aims to model objects and their evolving relationships across video frames, enabling interpretable representations for downstream reasoning tasks such as video captioning and visual question answering. Despite recent advancements in DETR-style single-stage ST-SGG models, they still suffer from several key limitations. First, while these models rely on attention-based learnable queries as a core component, these learnable queries are semantically uninformed and instance-agnostically initialized. Second, these models rely exclusively on unimodal visual features for predicate classification. To address these challenges, we propose VOST-SGG, a VLM-aided one-stage ST-SGG framework that integrates the common sense reasoning capabilities of vision-language models (VLMs) into the ST-SGG pipeline. First, we introduce the dual-source query initialization strategy that disentangles what to attend to from where to attend, enabling semantically grounded what-where reasoning. Furthermore, we propose a multi-modal feature bank that fuses visual, textual, and spatial cues derived from VLMs for improved predicate classification. Extensive experiments on the Action Genome dataset demonstrate that our approach achieves state-of-the-art performance, validating the effectiveness of integrating VLM-aided semantic priors and multi-modal features for ST-SGG. We will release the code at https://github.com/LUNAProject22/VOST.
- Abstract(参考訳): 時空間グラフ生成(ST-SGG)は、ビデオフレーム間のオブジェクトとその進化する関係をモデル化することを目的としており、ビデオキャプションや視覚的質問応答などの下流推論タスクの解釈可能な表現を可能にする。
DETRスタイルのシングルステージST-SGGモデルの最近の進歩にもかかわらず、いくつかの重要な制限に悩まされている。
まず、これらのモデルは注意に基づく学習可能なクエリを中心コンポーネントとしていますが、これらの学習可能なクエリは意味的に非インフォームされ、インスタンスに依存しない初期化されます。
第二に、これらのモデルは述語分類のための一助的な視覚的特徴にのみ依存する。
これらの課題に対処するために,視覚言語モデル(VLM)の常識推論機能をST-SGGパイプラインに統合した,VLM支援ワンステージST-SGGフレームワークVOST-SGGを提案する。
まず、参加する場所から出席する場所を分離し、意味論的に根拠付けられた場所の推論を可能にするデュアルソースクエリ初期化戦略を導入する。
さらに,VLMから派生した視覚的,テキスト的,空間的手がかりを融合させて,述語分類を改善する多モーダル特徴バンクを提案する。
本研究では,ST-SGGにおけるVLM支援セマンティックプリエントとマルチモーダル機能の統合の有効性を検証した。
コードはhttps://github.com/LUNAProject22/VOSTで公開します。
関連論文リスト
- Measuring Image-Relation Alignment: Reference-Free Evaluation of VLMs and Synthetic Pre-training for Open-Vocabulary Scene Graph Generation [4.633828400918887]
SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
SGGの現在のベンチマークは、非常に限られた語彙を持っている。
関係予測のためのVLMの開語彙能力を正確に評価する新しい基準自由度法を提案する。
論文 参考訳(メタデータ) (2025-09-01T07:46:58Z) - Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。
オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。
提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文 参考訳(メタデータ) (2025-06-09T19:59:05Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Decomposed Prototype Learning for Few-Shot Scene Graph Generation [42.65759272241633]
シーングラフ生成のためのDPL(Decomposed Prototype Learning)モデルを提案する。
まず,表現対象や対象の多様な意味や視覚的パターンを捉えるために,分解可能なプロトタイプ空間を構築した。
論文 参考訳(メタデータ) (2023-03-20T04:54:26Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。