論文の概要: Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
- arxiv url: http://arxiv.org/abs/2511.15948v2
- Date: Tue, 25 Nov 2025 06:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.301293
- Title: Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
- Title(参考訳): Click2Graph: ワンクリックでインタラクティブなパノラマビデオシーングラフ
- Authors: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath,
- Abstract要約: PVSG(Panoptic Video Scene Graph Generation)の最初のインタラクティブフレームワークであるClick2Graphを紹介する。
Click2Graphは、時間をかけて被写体を追跡し、対話するオブジェクトを自律的に発見し、被写体、オブジェクト、述語>三つ子を予測し、時間的に一貫したシーングラフを形成する。
本フレームワークでは,主観的なオブジェクトプロンプトを生成する動的インタラクション探索モジュールと,共同エンティティと述語推論を行うセマンティック分類ヘッドという2つの重要なコンポーネントを導入している。
- 参考スコア(独自算出の注目度): 4.3686715534918275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.
- Abstract(参考訳): 最先端のビデオシーングラフ生成(VSGG)システムは、構造化された視覚的理解を提供するが、人間のガイダンスを組み込むことができないクローズドなフィードフォワードパイプラインとして機能する。
これとは対照的に、SAM2のようなプロンプト可能なセグメンテーションモデルは正確なユーザインタラクションを可能にするが、意味論やリレーショナル推論は欠如している。
Click2Graphは、空間的、時間的、セマンティックな理解で視覚的なプロンプトを統一するPVSG(Panoptic Video Scene Graph Generation)のための最初のインタラクティブなフレームワークである。
クリックやバウンディングボックスのような単一のユーザキューから、Click2Graphは対象を時間をかけて追跡し、対話するオブジェクトを自律的に発見し、<subject, object, predicate>三つ子を予測して、時間的に一貫したシーングラフを形成する。
本フレームワークでは,主観的なオブジェクトプロンプトを生成する動的インタラクション探索モジュールと,共同エンティティと述語推論を行うセマンティック分類ヘッドという2つの重要なコンポーネントを導入している。
OpenPVSGベンチマークの実験では、Click2GraphがユーザガイドのPVSGの強力な基盤を確立し、人間のプロンプトとパン光学的グラウンドとリレーショナル推論を組み合わせることで、コントロール可能で解釈可能なビデオシーン理解を可能にする方法を示している。
関連論文リスト
- Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning [24.17324180628543]
本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
論文 参考訳(メタデータ) (2025-11-08T07:37:29Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。