Fugu-MT 論文翻訳(概要): Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

論文の概要: Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

arxiv url: http://arxiv.org/abs/2602.23543v2
Date: Mon, 02 Mar 2026 03:04:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 15:39:04.013366
Title: Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
Title（参考訳）: 合成ビジュアルゲノム2:ビデオから大規模時空間図を抽出する
Authors: Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna,
Abstract要約: マルチスケール・パノプティクス・セグメンテーション,オンライン・オフライン・トラッキング,トラジェクトリ・セマンティック・パーシングによる新たなオブジェクトの自動発見,GPT-5に基づく時間的関係推論を組み合わせた完全自動パイプラインを設計する。 TRaSERは、トラジェクトリ整列トークン配置機構と新しいモジュール、オブジェクト-トラジェクトリ・リサンプラーと時間-ウインドウ・リサンプラーでVLMを増強する。 SVGSG、VIPSeg、VidOR、SVG2テストデータセットでは、TRaSERは関係検出を+15から20%改善し、オブジェクト予測を+30から40%改善する。
参考スコア（独自算出の注目度）: 44.20016464849895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.
Abstract（参考訳）: 本稿では,大規模な映像シーングラフデータセットであるSynthetic Visual Genome 2(SVG2)を紹介する。 SVG2は636K以上のビデオと6.6Mのオブジェクト、52.0Mの属性、6.7Mの関係を持ち、時空間グラフのデータセットよりもスケールと多様性のオーダー・オブ・マグニチュードが増加する。 SVG2を作成するために,マルチスケールの汎視的セグメンテーション,オンラインオフライン軌道追跡,自動新対象発見,軌道ごとの意味解析,GPT-5に基づく時空間関係推論を組み合わせた完全自動パイプラインを設計する。このリソースに基づいて、ビデオシーングラフ生成モデルであるTRaSERをトレーニングする。 TRaSERは、オブジェクト・トラジェクトリ・リサンプラーと時間・ウィンドウ・リサンプラーという、トラジェクトリ・アラインメント・トークン・アレンジメント機構と新しいモジュールでVLMを拡張し、生のビデオとパンプト・トラジェクトリを1つの前方パスでコンパクトな時空間グラフに変換する。時間的ウィンドウリサンプラーは、局所的な動きと時間的意味を保つために、視覚的トークンを短い軌跡セグメントに結合し、オブジェクトのグローバルなコンテキストを維持するために、オブジェクトの軌跡全体を集約する。 PVSG、VIPSeg、VidOR、SVG2テストデータセットでは、TRaSERは関係検出を+15から20%、オブジェクト予測を+30から40%、GPT-5よりも+13%、属性予測を+15%改善している。 TRaSERの生成したシーングラフがビデオ質問応答のためにVLMに送信されると、ビデオのみまたはQwen2.5-VLの生成したシーングラフで強化されたビデオに対して、+1.5～4.6%の絶対精度が得られ、露骨な時空間シーングラフを中間表現として有効性を示す。

関連論文リスト

GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection [1.1106255381859969]
マルチモーダル融合と高度な特徴学習を組み合わせた統合フレームワークGraphFusion3Dを提案する。本稿では,画像特徴を点表現に適応的に統合し,幾何学的情報と意味的情報の両方を充実させる適応型クロスモーダル変換器(ACMT)を提案する。提案手法では,局所的な幾何学的構造とグローバルな意味的コンテキストを同時に捉えるために近傍関係をモデル化する新しいメカニズムであるグラフ推論モジュール(GRM)を導入する。
論文参考訳（メタデータ） (2025-12-02T18:05:02Z)
St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文参考訳（メタデータ） (2025-04-17T17:55:58Z)
DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [9.702862490344485]
本稿では,2つの鍵成分からなる時変Scene Graph Neural Network (TESGNN)を提案する。 ESGNNは、3次元点雲から情報を抽出し、重要な対称性特性を保持しながらシーングラフを生成する。対称性保存特性を活用することにより,より安定かつ正確なグローバルシーン表現が得られることを示す。
論文参考訳（メタデータ） (2024-11-15T15:39:04Z)
SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene Graph Generation [46.14140601855313]
本稿では,ポイントクラウドベースの3Dシーングラフ生成のためのSGFormer,Semantic Graph TransFormerという新しいモデルを提案する。このタスクは、ポイントクラウドベースのシーンをセマンティックな構造グラフに解析することを目的としている。
論文参考訳（メタデータ） (2023-03-20T11:59:23Z)
Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文参考訳（メタデータ） (2022-11-30T00:05:44Z)
(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering [54.436179346454516]
ビデオは基本的に、3D空間で発生するイベントの2D"ビュー"である。ビデオ内の時間的情報の流れをよりよく捉えるために,(2.5+1)Dシーングラフ表現を提案する。
論文参考訳（メタデータ） (2022-02-18T15:58:54Z)
Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。 Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。 VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文参考訳（メタデータ） (2021-07-02T16:43:19Z)
Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。 AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。 3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文参考訳（メタデータ） (2020-01-19T10:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。