論文の概要: Semantic-guided spatial relation and object co-occurrence modeling for
indoor scene recognition
- arxiv url: http://arxiv.org/abs/2305.12661v2
- Date: Wed, 1 Nov 2023 10:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:42:15.978627
- Title: Semantic-guided spatial relation and object co-occurrence modeling for
indoor scene recognition
- Title(参考訳): 室内シーン認識のための意味誘導空間関係とオブジェクト共起モデル
- Authors: Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li
- Abstract要約: 屋内シーン認識のための既存の文脈モデリング手法には2つの制限がある。
本研究では,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 13.367535370705395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring the semantic context in scene images is essential for indoor scene
recognition. However, due to the diverse intra-class spatial layouts and the
coexisting inter-class objects, modeling contextual relationships to adapt
various image characteristics is a great challenge. Existing contextual
modeling methods for indoor scene recognition exhibit two limitations: 1)
During training, space-independent information, such as color, may hinder
optimizing the network's capacity to represent the spatial context. 2) These
methods often overlook the differences in coexisting objects across different
scenes, suppressing scene recognition performance. To address these
limitations, we propose SpaCoNet, which simultaneously models the Spatial
relation and Co-occurrence of objects based on semantic segmentation. Firstly,
the semantic spatial relation module (SSRM) is designed to explore the spatial
relation among objects within a scene. With the help of semantic segmentation,
this module decouples the spatial information from the image, effectively
avoiding the influence of irrelevant features. Secondly, both spatial context
features from the SSRM and deep features from the Image Feature Extraction
Module are used to distinguish the coexisting object across different scenes.
Finally, utilizing the discriminative features mentioned above, we employ the
self-attention mechanism to explore the long-range co-occurrence among objects,
and further generate a semantic-guided feature representation for indoor scene
recognition. Experimental results on three widely used scene datasets
demonstrate the effectiveness and generality of the proposed method. The code
will be made publicly available after the blind review process is completed.
- Abstract(参考訳): シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。
しかし、クラス内空間レイアウトの多様性とクラス間オブジェクトの共存により、様々な画像特性に適応するための文脈関係のモデル化は大きな課題となっている。
室内シーン認識のための既存の文脈モデル手法には2つの限界がある。
1) トレーニング中、色などの空間に依存しない情報は、ネットワークの空間的文脈を表現する能力の最適化を妨げる可能性がある。
2)これらの手法は,異なるシーンにまたがるオブジェクトの相違を見落とし,シーン認識性能を抑える。
これらの制約に対処するために,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
まず,シーン内のオブジェクト間の空間関係を探索するために,意味空間関係モジュール(SSRM)を設計する。
セマンティックセグメンテーションの助けを借りて、このモジュールは画像から空間情報を分離し、無関係な特徴の影響を効果的に回避する。
第2に、SSRMの空間的コンテキスト特徴と画像特徴抽出モジュールの深い特徴の両方を用いて、異なるシーン間で共存するオブジェクトを識別する。
最後に,上記の識別的特徴を生かして,物体間の長距離共起を探索し,さらに,室内シーン認識のための意味的誘導特徴表現を生成する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
ブラインドレビュープロセスが完了した後、コードは公開されます。
関連論文リスト
- Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SACANet: scene-aware class attention network for semantic segmentation
of remote sensing images [4.124381172041927]
リモートセンシング画像のセマンティックセグメンテーションのためのシーン認識クラスアテンションネットワーク(SACANet)を提案する。
3つのデータセットの実験結果は、SACANetが他の最先端の手法より優れ、その有効性を検証することを示している。
論文 参考訳(メタデータ) (2023-04-22T14:54:31Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。