論文の概要: Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition
- arxiv url: http://arxiv.org/abs/2305.12661v4
- Date: Wed, 7 Aug 2024 11:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:33:27.197632
- Title: Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition
- Title(参考訳): 室内シーン認識のための意味誘導型空間関係モデルとオブジェクト共起モデル
- Authors: Chuanxin Song, Hanbo Wu, Xin Ma,
- Abstract要約: SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 5.083140094792973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for scene recognition exhibit two limitations: 1) They typically model only one type of spatial relationship (order or metric) among objects within scenes, with limited exploration of diverse spatial layouts. 2) They often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To overcome these limitations, we propose SpaCoNet, which simultaneously models Spatial relation and Co-occurrence of objects guided by semantic segmentation. Firstly, the Semantic Spatial Relation Module (SSRM) is constructed to model scene spatial features. With the help of semantic segmentation, this module decouples spatial information from the scene image and thoroughly explores all spatial relationships among objects in an end-to-end manner, thereby obtaining semantic-based spatial features. Secondly, both spatial features from the SSRM and deep features from the Image Feature Extraction Module are allocated to each object, so as to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features above, we design a Global-Local Dependency Module to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method.
- Abstract(参考訳): シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。
しかし、クラス内空間配置の多様性とクラス間オブジェクトの共存により、様々な画像特性を適応させるためにコンテキスト関係をモデル化することは大きな課題である。
シーン認識のための既存の文脈モデリング手法には2つの制限がある。
1) シーン内のオブジェクト間の空間的関係(順序や距離)をモデル化し,空間的レイアウトを限定的に探索する。
2) 異なる場面にまたがって共存する物体の違いを見落とし, シーン認識性能を抑えることが多かった。
これらの制約を克服するために,意味的セグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
まず,シーンの空間的特徴をモデル化するために,セマンティック空間関係モジュール (SSRM) を構築した。
セマンティックセグメンテーション(セマンティックセグメンテーション)の助けを借りて、このモジュールはシーン画像から空間情報を分離し、オブジェクト間のすべての空間関係をエンドツーエンドに徹底的に探索し、セマンティックベースの空間特徴を得る。
次に、SSRMの空間的特徴と画像特徴抽出モジュールの深い特徴の両方を各オブジェクトに割り当て、異なるシーン間で共存するオブジェクトを区別する。
最後に,オブジェクト間の長距離共起を探索するグローバルローカル依存モジュールを設計し,さらに屋内シーン認識のための意味誘導特徴表現を生成する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
関連論文リスト
- N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - SPACE: Unsupervised Object-Oriented Scene Representation via Spatial
Attention and Decomposition [26.42139271058149]
本研究では,空間アテンションとシーンミキシングの最も優れた組み合わせを組み合わせた,SPACEと呼ばれる潜在変数生成モデルを提案する。
本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。
論文 参考訳(メタデータ) (2020-01-08T07:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。