論文の概要: SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation with Long- and Local-range Context Reasoning
- arxiv url: http://arxiv.org/abs/2507.05798v1
- Date: Tue, 08 Jul 2025 09:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.759285
- Title: SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation with Long- and Local-range Context Reasoning
- Title(参考訳): SPADE:長期・局所的文脈推論を用いたオープンボキャブラリパノラマシーングラフ生成のための空間認識型デノイングネットワーク
- Authors: Xin Hu, Ke Qin, Guiduo Duan, Ming Li, Yuan-Fang Li, Tao He,
- Abstract要約: Panoptic Scene Graph Generation (PSG)は、複雑なシーンにおけるピクセルレベルの構造的関係をキャプチャするために、関係理解とインスタンスセグメンテーションを統合する。
事前学習された視覚言語モデル(VLM)を活用する最近のアプローチは、オープン語彙設定における性能を大幅に改善した。
オープン語彙PSGの新しいアプローチであるSPADE(SPatial-Aware Denoising-nEtwork)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.984926906083473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic Scene Graph Generation (PSG) integrates instance segmentation with relation understanding to capture pixel-level structural relationships in complex scenes. Although recent approaches leveraging pre-trained vision-language models (VLMs) have significantly improved performance in the open-vocabulary setting, they commonly ignore the inherent limitations of VLMs in spatial relation reasoning, such as difficulty in distinguishing object relative positions, which results in suboptimal relation prediction. Motivated by the denoising diffusion model's inversion process in preserving the spatial structure of input images, we propose SPADE (SPatial-Aware Denoising-nEtwork) framework -- a novel approach for open-vocabulary PSG. SPADE consists of two key steps: (1) inversion-guided calibration for the UNet adaptation, and (2) spatial-aware context reasoning. In the first step, we calibrate a general pre-trained teacher diffusion model into a PSG-specific denoising network with cross-attention maps derived during inversion through a lightweight LoRA-based fine-tuning strategy. In the second step, we develop a spatial-aware relation graph transformer that captures both local and long-range contextual information, facilitating the generation of high-quality relation queries. Extensive experiments on benchmark PSG and Visual Genome datasets demonstrate that SPADE outperforms state-of-the-art methods in both closed- and open-set scenarios, particularly for spatial relationship prediction.
- Abstract(参考訳): Panoptic Scene Graph Generation (PSG)は、複雑なシーンにおけるピクセルレベルの構造的関係をキャプチャするために、関係理解とインスタンスセグメンテーションを統合する。
事前学習された視覚言語モデル(VLM)を活用する最近のアプローチは、オープン語彙設定における性能を著しく向上させているが、それらは一般に、空間的関係推論におけるVLMの本質的な制限を無視している。
入力画像の空間構造を保存するための拡散モデルの逆転過程を動機として,オープン語彙PSGの新しいアプローチであるSPADE(SPatial-Aware Denoising-nEtwork)フレームワークを提案する。
SPADEは、(1)UNet適応のための逆誘導キャリブレーションと(2)空間認識コンテキスト推論の2つの重要なステップから構成される。
最初のステップでは、教師の一般的な学習前の拡散モデルを、軽量なLORAによる微調整戦略により、反転中に導出される横断的注意マップを持つPSG固有の認知ネットワークに校正する。
第2のステップでは、局所的および長距離な文脈情報の両方をキャプチャし、高品質な関係クエリの生成を容易にする空間認識関係グラフ変換器を開発する。
ベンチマークPSGとVisual Genomeデータセットの大規模な実験により、SPADEは、特に空間的関係予測において、クローズドおよびオープンセットのシナリオにおいて最先端の手法よりも優れていることが示された。
関連論文リスト
- Why Settle for Mid: A Probabilistic Viewpoint to Spatial Relationship Alignment in Text-to-image Models [3.5999252362400993]
構成生成における主要な問題は、空間的関係の不整合である。
本研究では,テキストと画像間の2次元空間関係と3次元空間関係のアライメントを評価するための新しい評価指標を提案する。
また,T2Iモデルにおける2次元空間関係と3次元空間関係のアライメントを微調整を必要とせずに改善する推定時間であるPoSベースの生成を提案する。
論文 参考訳(メタデータ) (2025-06-29T22:41:27Z) - Graph Neural Networks for Jamming Source Localization [0.23408308015481666]
ソースローカライゼーションを妨害するグラフベースの学習の最初の応用について紹介する。
提案手法は,局所および大域的な信号集約を符号化する構造化ノード表現を統合する。
その結果,新しいグラフベースの学習フレームワークは,確立されたローカライゼーションベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T14:29:25Z) - From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.42202665594218]
OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文 参考訳(メタデータ) (2025-05-26T15:11:23Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Denoising-Contrastive Alignment for Continuous Sign Language Recognition [22.800767994061175]
連続手話認識は,手話ビデオからテキストグルースへの符号認識を目的としている。
現在のクロスモダリティアライメントパラダイムは、ビデオ表現を導くためにテキスト文法の役割を無視することが多い。
本稿では,映像の表現性を高めるために,Denoising-Contrastive Alignmentパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-05T15:20:27Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。