論文の概要: Semantic-guided spatial relation and object co-occurrence modeling for
indoor scene recognition
- arxiv url: http://arxiv.org/abs/2305.12661v2
- Date: Wed, 1 Nov 2023 10:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:42:15.978627
- Title: Semantic-guided spatial relation and object co-occurrence modeling for
indoor scene recognition
- Title(参考訳): 室内シーン認識のための意味誘導空間関係とオブジェクト共起モデル
- Authors: Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li
- Abstract要約: 屋内シーン認識のための既存の文脈モデリング手法には2つの制限がある。
本研究では,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 13.367535370705395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring the semantic context in scene images is essential for indoor scene
recognition. However, due to the diverse intra-class spatial layouts and the
coexisting inter-class objects, modeling contextual relationships to adapt
various image characteristics is a great challenge. Existing contextual
modeling methods for indoor scene recognition exhibit two limitations: 1)
During training, space-independent information, such as color, may hinder
optimizing the network's capacity to represent the spatial context. 2) These
methods often overlook the differences in coexisting objects across different
scenes, suppressing scene recognition performance. To address these
limitations, we propose SpaCoNet, which simultaneously models the Spatial
relation and Co-occurrence of objects based on semantic segmentation. Firstly,
the semantic spatial relation module (SSRM) is designed to explore the spatial
relation among objects within a scene. With the help of semantic segmentation,
this module decouples the spatial information from the image, effectively
avoiding the influence of irrelevant features. Secondly, both spatial context
features from the SSRM and deep features from the Image Feature Extraction
Module are used to distinguish the coexisting object across different scenes.
Finally, utilizing the discriminative features mentioned above, we employ the
self-attention mechanism to explore the long-range co-occurrence among objects,
and further generate a semantic-guided feature representation for indoor scene
recognition. Experimental results on three widely used scene datasets
demonstrate the effectiveness and generality of the proposed method. The code
will be made publicly available after the blind review process is completed.
- Abstract(参考訳): シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。
しかし、クラス内空間レイアウトの多様性とクラス間オブジェクトの共存により、様々な画像特性に適応するための文脈関係のモデル化は大きな課題となっている。
室内シーン認識のための既存の文脈モデル手法には2つの限界がある。
1) トレーニング中、色などの空間に依存しない情報は、ネットワークの空間的文脈を表現する能力の最適化を妨げる可能性がある。
2)これらの手法は,異なるシーンにまたがるオブジェクトの相違を見落とし,シーン認識性能を抑える。
これらの制約に対処するために,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
まず,シーン内のオブジェクト間の空間関係を探索するために,意味空間関係モジュール(SSRM)を設計する。
セマンティックセグメンテーションの助けを借りて、このモジュールは画像から空間情報を分離し、無関係な特徴の影響を効果的に回避する。
第2に、SSRMの空間的コンテキスト特徴と画像特徴抽出モジュールの深い特徴の両方を用いて、異なるシーン間で共存するオブジェクトを識別する。
最後に,上記の識別的特徴を生かして,物体間の長距離共起を探索し,さらに,室内シーン認識のための意味的誘導特徴表現を生成する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
ブラインドレビュープロセスが完了した後、コードは公開されます。
関連論文リスト
- N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - SPACE: Unsupervised Object-Oriented Scene Representation via Spatial
Attention and Decomposition [26.42139271058149]
本研究では,空間アテンションとシーンミキシングの最も優れた組み合わせを組み合わせた,SPACEと呼ばれる潜在変数生成モデルを提案する。
本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。
論文 参考訳(メタデータ) (2020-01-08T07:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。