論文の概要: SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.13667v1
- Date: Wed, 13 May 2026 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.132204
- Title: SceneGraphVLM: Dynamic Scene Graph Generation from Video with Vision-Language Models
- Title(参考訳): SceneGraphVLM:視覚言語モデルを用いた映像からの動的シーングラフ生成
- Authors: Vladislav Makarov, Mark Gizetdinov, Dmitry Yudin,
- Abstract要約: SceneGraphVLMは、小さな視覚言語モデルを用いた画像および映像シーングラフ生成のためのコンパクトな方法である。
SceneGraphVLMはトークン効率のTOONフォーマットでグラフをシリアライズし、2段階でモデルをトレーニングする。
SceneGraphVLM on PSG, PVSG, Action Genome。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graph generation provides a compact structured representation for visual perception, but accurate and fast graph prediction from images and videos remains challenging. Recent VLM-based methods can generate scene graphs end-to-end as structured text, yet often produce long outputs with irrelevant objects and relations. We present SceneGraphVLM, a compact method for image and video scene graph generation with small visual language models. SceneGraphVLM serializes graphs in a token-efficient TOON format and trains the model in two stages: supervised fine-tuning followed by reinforcement learning with hallucination-aware rewards that balance relation coverage and precision while penalizing unsupported objects and relations. For videos, the model can optionally condition each frame on the previously generated graph, providing lightweight short-term context without tracking or post-processing. We evaluate SceneGraphVLM on PSG, PVSG, and Action Genome. With compact VLMs and vLLM-accelerated decoding, SceneGraphVLM achieves a strong quality-speed trade-off, improves precision-oriented SGG metrics while preserving reasonable recall, and generates complete scene graphs with approximately one-second latency. Code and implementation details are available at: https://github.com/markus0440/SceneGraphVLM.git.
- Abstract(参考訳): シーングラフ生成は視覚知覚のためのコンパクトな構造化表現を提供するが、画像やビデオからの正確かつ高速なグラフ予測は難しいままである。
VLMベースの最近の手法は、構造化されたテキストとしてシーングラフをエンドツーエンドに生成できるが、無関係なオブジェクトや関係を持つ長い出力を生成することが多い。
SceneGraphVLMは、小さな視覚言語モデルを用いた画像および映像シーングラフ生成のコンパクトな方法である。
SceneGraphVLMはトークン効率のTOON形式でグラフをシリアライズし、教師付き微調整と、支援対象や関係をペナライズしながら、関係のカバレッジと精度のバランスをとる幻覚認識報酬による強化学習の2段階でモデルを訓練する。
ビデオの場合、モデルは以前生成されたグラフ上の各フレームを任意に条件付けし、追跡や後処理なしに軽量な短期コンテキストを提供する。
SceneGraphVLM on PSG, PVSG, Action Genome。
コンパクトなVLMとvLLMアクセラレーションデコーディングにより、SceneGraphVLMは強力な品質-速度トレードオフを実現し、合理的なリコールを維持しながら精度指向のSGGメトリクスを改善し、約1秒のレイテンシで完全なシーングラフを生成する。
コードと実装の詳細は、https://github.com/markus0440/SceneGraphVLM.gitで確認できる。
関連論文リスト
- Dependency-Aware Discrete Diffusion for Scene Graph Generation [8.87774679281067]
本稿では,シーングラフ生成のための依存性を考慮した階層的制約付き離散拡散モデルを提案する。
我々のアプローチは、フォワードプロセスとリバースプロセスの間で構造とセマンティクスを分離し、モデルが条件付き依存関係をキャプチャすることを可能にする。
下流画像生成に投入すると,本手法はテキスト・ツー・イメージモデルよりもコンポジションアライメントが向上する。
論文 参考訳(メタデータ) (2026-05-09T17:16:20Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。