論文の概要: Can We Build Scene Graphs, Not Classify Them? FlowSG: Progressive Image-Conditioned Scene Graph Generation with Flow Matching
- arxiv url: http://arxiv.org/abs/2604.18623v1
- Date: Sat, 18 Apr 2026 01:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.367605
- Title: Can We Build Scene Graphs, Not Classify Them? FlowSG: Progressive Image-Conditioned Scene Graph Generation with Flow Matching
- Title(参考訳): FlowSG: フローマッチングを用いたプログレッシブな画像記述型シーングラフ生成
- Authors: Xin Hu, Ke Qin, Wen Yin, Yuan-Fang Li, Ming Li, Tao He,
- Abstract要約: SGG(Scene Graph Generation)は、オブジェクトの局所化と視覚的関係推論を、ボックスと主観的述語オブジェクトのトリプルを予測することによって統合する。
本稿では,SGGをハイブリッド離散連続状態における連続時間輸送として再放送するFlowSGを提案する。
クローズドボキャブラリプロトコルとオープンボキャブラリプロトコルによるVGとPSGの実験は、述語R/mRとグラフレベルのメトリクスにおいて一貫した利得を示す。
- 参考スコア(独自算出の注目度): 35.40374108008262
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene Graph Generation (SGG) unifies object localization and visual relationship reasoning by predicting boxes and subject-predicate-object triples. Yet most pipelines treat SGG as a one-shot, deterministic classification problem rather than a genuinely progressive, generative task. We propose FlowSG, which recasts SGG as continuous-time transport on a hybrid discrete-continuous state: starting from a noised graph, the model progressively grows an image-conditioned scene graph through constraint-aware refinements that jointly synthesize nodes (objects) and edges (predicates). Specifically, we first leverage a VQ-VAE to quantize a scene graph (e.g., continuous visual features) into compact, predictable tokens; a graph Transformer then (i) predicts a conditional velocity field to transport continuous geometry (boxes) and (ii) updates discrete posteriors for categorical tokens (object features and predicate labels), coupling semantics and geometry via flow-conditioned message aggregation. Training combines flow-matching losses for geometry with a discrete-flow objective for tokens, yielding few-step inference and plug-and-play compatibility with standard detectors and segmenters. Extensive experiments on VG and PSG under closed- and open-vocabulary protocols show consistent gains in predicate R/mR and graph-level metrics, validating the mixed discrete-continuous generative formulation over one-shot classification baselines, with an average improvement of about 3 points over the state-of-the-art USG-Par.
- Abstract(参考訳): SGG(Scene Graph Generation)は、オブジェクトの局所化と視覚的関係推論を、ボックスと主観的述語オブジェクトのトリプルを予測することによって統合する。
しかし、ほとんどのパイプラインはSGGを真に進歩的で生成的なタスクではなく、単発で決定論的な分類問題として扱う。
本稿では,SGGをハイブリッド離散連続状態上で連続時間輸送として再送するFlowSGを提案する。ノイズグラフから始めて,ノード(オブジェクト)とエッジ(述語)を協調的に合成する制約対応の改良を通じて,画像条件付きシーングラフを段階的に成長させる。
具体的には、まずVQ-VAEを利用してシーングラフ(例えば連続的な視覚的特徴)をコンパクトで予測可能なトークンに量子化し、それからグラフ変換する。
一 連続幾何(箱)を輸送するための条件速度場を予測し、
(II)カテゴリートークン(特徴と述語ラベル)、結合意味論と幾何学をフロー条件のメッセージアグリゲーションによって更新する。
トレーニングは、幾何学のフローマッチング損失とトークンの離散フロー目標を組み合わせることで、数ステップの推論と標準検出器やセグメンタとのプラグアンドプレイ互換性を得る。
閉語彙および開語彙プロトコル下でのVGとPSGの広範な実験は、述語R/mRとグラフレベルの指標において一貫した利得を示し、一発分類ベースライン上での混合離散連続生成の定式化を検証し、最先端USG-Parよりも平均3ポイント改善した。
関連論文リスト
- PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation [4.319987790757823]
シーングラフ生成(SGG)は、人間の理解と視覚的理解のための画像の包括的表現を提供する。
利用可能なアノテートデータ中のオブジェクトと述語ラベルの長いテールバイアス問題により、現在の手法から生成されたシーングラフは、一般的な非表現的関係ラベルにバイアスすることができる。
本研究では,シーングラフ生成のためのSG-Shuffleパイプラインを3つのコンポーネントで提案した。1) 関係ラベルを類似したグループにグループ化することで,より排他的な方法でオブジェクト関係の予測を学習する並列変換器,2) カテゴリ特化特徴から最終関係ラベルを選択するシュッフル変換器。
論文 参考訳(メタデータ) (2022-11-09T10:00:45Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Panoptic Scene Graph Generation [41.534209967051645]
パン光学シーングラフ生成(PSG)は、より包括的なシーングラフ表現を生成するためにモデルを必要とする新しい問題タスクである。
高品質のPSGデータセットには、COCOとVisual Genomeの49kのよく注釈付けされた重複画像が含まれている。
論文 参考訳(メタデータ) (2022-07-22T17:59:53Z) - SIGMA: Semantic-complete Graph Matching for Domain Adaptive Object
Detection [26.0630601028093]
ドメイン適応オブジェクト検出(DAOD)は、ラベル付きドメインを利用して、アノテーションのない新しいドメインに一般化されたオブジェクト検出器を学ぶ。
クロスドメインプロトタイプ(クラスセンター)の縮小によるクラス条件分布の調整
本稿では,不一致のセマンティックスを補完し,グラフマッチングによる適応を再構築する,幻覚Dのための新しいSemantIc完全グラフマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-12T10:14:17Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。