論文の概要: SRRM: Semantic Region Relation Model for Indoor Scene Recognition
- arxiv url: http://arxiv.org/abs/2305.08540v1
- Date: Mon, 15 May 2023 11:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:52:03.851306
- Title: SRRM: Semantic Region Relation Model for Indoor Scene Recognition
- Title(参考訳): SRRM:屋内シーン認識のための意味領域関係モデル
- Authors: Chuanxin Song, Xin Ma
- Abstract要約: シーン内の意味情報から直接始まる意味領域関係モデル(SRRM)を提案する。
SRRMは、意味的あいまいさの負の影響を軽減するために適応的で効率的なアプローチを採用する。
シーンに含まれる情報をより包括的に活用するために,提案したSRRMとPlacesCNNモジュールを組み合わせる。
- 参考スコア(独自算出の注目度): 2.6415509201394283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of convolutional neural networks in various
computer vision tasks, recognizing indoor scenes still presents a significant
challenge due to their complex composition. Consequently, effectively
leveraging semantic information in the scene has been a key issue in advancing
indoor scene recognition. Unfortunately, the accuracy of semantic segmentation
has limited the effectiveness of existing approaches for leveraging semantic
information. As a result, many of these approaches remain at the stage of
auxiliary labeling or co-occurrence statistics, with few exploring the
contextual relationships between the semantic elements directly within the
scene. In this paper, we propose the Semantic Region Relationship Model (SRRM),
which starts directly from the semantic information inside the scene.
Specifically, SRRM adopts an adaptive and efficient approach to mitigate the
negative impact of semantic ambiguity and then models the semantic region
relationship to perform scene recognition. Additionally, to more
comprehensively exploit the information contained in the scene, we combine the
proposed SRRM with the PlacesCNN module to create the Combined Semantic Region
Relation Model (CSRRM), and propose a novel information combining approach to
effectively explore the complementary contents between them. CSRRM
significantly outperforms the SOTA methods on the MIT Indoor 67, reduced
Places365 dataset, and SUN RGB-D without retraining. The code is available at:
https://github.com/ChuanxinSong/SRRM
- Abstract(参考訳): 様々なコンピュータビジョンタスクにおける畳み込みニューラルネットワークの顕著な成功にもかかわらず、屋内シーンの認識は複雑な構成のために依然として大きな課題となっている。
その結果,シーンのセマンティック情報を効果的に活用することは,屋内シーン認識の進展において重要な問題となっている。
残念ながら、セマンティックセグメンテーションの精度は、セマンティック情報を活用する既存のアプローチの有効性を制限している。
その結果、これらのアプローチの多くは補助的なラベル付けや共起統計の段階に留まり、シーン内の意味的要素間の文脈的関係を探求する機会はほとんどない。
本稿では,シーン内の意味情報から直接始まる意味領域関係モデル(SRRM)を提案する。
特に、srmは適応的かつ効率的なアプローチを採用し、意味曖昧性の負の影響を緩和し、意味領域関係をモデル化してシーン認識を行う。
さらに,シーンに含まれる情報をより包括的に活用するために,提案したSRRMとPlacesCNNモジュールを組み合わせて,複合意味領域関係モデル(CSRRM)を作成し,それらの相補的内容を効果的に探索する新たな情報結合手法を提案する。
CSRRMはMIT Indoor 67でSOTA法を著しく上回り、Places365データセットを減らし、SUN RGB-Dを再トレーニングせずに改善した。
コードは、https://github.com/ChuanxinSong/SRRMで入手できる。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Modeling Complex Dialogue Mappings via Sentence Semantic Segmentation
Guided Conditional Variational Auto-Encoder [23.052838118122835]
複合対話マッピング(CDM)は、一対多と多対一のマッピングを含む、不整合や鈍い応答を生成する傾向がある。
本稿では, セマンティックテキストbfSegmentation guided textbfConditional textbfVariational textbfAuto-textbfEncoder(SegCVAE)法を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:31:10Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Regional Semantic Contrast and Aggregation for Weakly Supervised
Semantic Segmentation [25.231470587575238]
本稿では,意味的セグメンテーションを学習するための地域意味的コントラストとアグリゲーション(RCA)を提案する。
RCAは、訓練データに現れる多種多様なオブジェクトパターンを格納する地域記憶バンクを備えている。
RCAは、きめ細かいセマンティック理解の強い能力を獲得し、最終的には2つの人気のあるベンチマークで新しい最先端の結果を確立する。
論文 参考訳(メタデータ) (2022-03-17T23:29:03Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。
その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。
本稿では,ドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。