Fugu-MT 論文翻訳(概要): SRRM: Semantic Region Relation Model for Indoor Scene Recognition

論文の概要: SRRM: Semantic Region Relation Model for Indoor Scene Recognition

arxiv url: http://arxiv.org/abs/2305.08540v1
Date: Mon, 15 May 2023 11:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-16 14:52:03.851306
Title: SRRM: Semantic Region Relation Model for Indoor Scene Recognition
Title（参考訳）: SRRM:屋内シーン認識のための意味領域関係モデル
Authors: Chuanxin Song, Xin Ma
Abstract要約: シーン内の意味情報から直接始まる意味領域関係モデル(SRRM)を提案する。 SRRMは、意味的あいまいさの負の影響を軽減するために適応的で効率的なアプローチを採用する。シーンに含まれる情報をより包括的に活用するために,提案したSRRMとPlacesCNNモジュールを組み合わせる。
参考スコア（独自算出の注目度）: 2.6415509201394283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable success of convolutional neural networks in various computer vision tasks, recognizing indoor scenes still presents a significant challenge due to their complex composition. Consequently, effectively leveraging semantic information in the scene has been a key issue in advancing indoor scene recognition. Unfortunately, the accuracy of semantic segmentation has limited the effectiveness of existing approaches for leveraging semantic information. As a result, many of these approaches remain at the stage of auxiliary labeling or co-occurrence statistics, with few exploring the contextual relationships between the semantic elements directly within the scene. In this paper, we propose the Semantic Region Relationship Model (SRRM), which starts directly from the semantic information inside the scene. Specifically, SRRM adopts an adaptive and efficient approach to mitigate the negative impact of semantic ambiguity and then models the semantic region relationship to perform scene recognition. Additionally, to more comprehensively exploit the information contained in the scene, we combine the proposed SRRM with the PlacesCNN module to create the Combined Semantic Region Relation Model (CSRRM), and propose a novel information combining approach to effectively explore the complementary contents between them. CSRRM significantly outperforms the SOTA methods on the MIT Indoor 67, reduced Places365 dataset, and SUN RGB-D without retraining. The code is available at: https://github.com/ChuanxinSong/SRRM
Abstract（参考訳）: 様々なコンピュータビジョンタスクにおける畳み込みニューラルネットワークの顕著な成功にもかかわらず、屋内シーンの認識は複雑な構成のために依然として大きな課題となっている。その結果,シーンのセマンティック情報を効果的に活用することは,屋内シーン認識の進展において重要な問題となっている。残念ながら、セマンティックセグメンテーションの精度は、セマンティック情報を活用する既存のアプローチの有効性を制限している。その結果、これらのアプローチの多くは補助的なラベル付けや共起統計の段階に留まり、シーン内の意味的要素間の文脈的関係を探求する機会はほとんどない。本稿では,シーン内の意味情報から直接始まる意味領域関係モデル(SRRM)を提案する。特に、srmは適応的かつ効率的なアプローチを採用し、意味曖昧性の負の影響を緩和し、意味領域関係をモデル化してシーン認識を行う。さらに,シーンに含まれる情報をより包括的に活用するために,提案したSRRMとPlacesCNNモジュールを組み合わせて,複合意味領域関係モデル(CSRRM)を作成し,それらの相補的内容を効果的に探索する新たな情報結合手法を提案する。 CSRRMはMIT Indoor 67でSOTA法を著しく上回り、Places365データセットを減らし、SUN RGB-Dを再トレーニングせずに改善した。コードは、https://github.com/ChuanxinSong/SRRMで入手できる。

関連論文リスト

Semantic-aware Representation Learning for Homography Estimation [28.70450397793246]
本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文参考訳（メタデータ） (2024-07-18T08:36:28Z)
FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。実験の結果,既存の手法と比較して最先端の性能が示された。
論文参考訳（メタデータ） (2024-07-12T15:57:52Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Progressive Feature Self-reinforcement for Weakly Supervised Semantic Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文参考訳（メタデータ） (2023-12-14T13:21:52Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Modeling Complex Dialogue Mappings via Sentence Semantic Segmentation Guided Conditional Variational Auto-Encoder [23.052838118122835]
複合対話マッピング(CDM)は、一対多と多対一のマッピングを含む、不整合や鈍い応答を生成する傾向がある。本稿では, セマンティックテキストbfSegmentation guided textbfConditional textbfVariational textbfAuto-textbfEncoder(SegCVAE)法を提案する。
論文参考訳（メタデータ） (2022-12-01T02:31:10Z)
Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation [25.231470587575238]
本稿では,意味的セグメンテーションを学習するための地域意味的コントラストとアグリゲーション(RCA)を提案する。 RCAは、訓練データに現れる多種多様なオブジェクトパターンを格納する地域記憶バンクを備えている。 RCAは、きめ細かいセマンティック理解の強い能力を獲得し、最終的には2つの人気のあるベンチマークで新しい最先端の結果を確立する。
論文参考訳（メタデータ） (2022-03-17T23:29:03Z)
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。 GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2020-03-27T09:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。