論文の概要: Indoor scene recognition from images under visual corruptions
- arxiv url: http://arxiv.org/abs/2408.13029v1
- Date: Fri, 23 Aug 2024 12:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:10:31.018018
- Title: Indoor scene recognition from images under visual corruptions
- Title(参考訳): 視覚的汚濁下における画像からの屋内シーン認識
- Authors: Willams de Lima Costa, Raul Ismayilov, Nicola Strisciuglio, Estefania Talavera Martinez,
- Abstract要約: 本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて,CNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討した。
本研究では,Places365データセットの破損したサブセットに対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 3.4861209026118836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The classification of indoor scenes is a critical component in various applications, such as intelligent robotics for assistive living. While deep learning has significantly advanced this field, models often suffer from reduced performance due to image corruption. This paper presents an innovative approach to indoor scene recognition that leverages multimodal data fusion, integrating caption-based semantic features with visual data to enhance both accuracy and robustness against corruption. We examine two multimodal networks that synergize visual features from CNN models with semantic captions via a Graph Convolutional Network (GCN). Our study shows that this fusion markedly improves model performance, with notable gains in Top-1 accuracy when evaluated against a corrupted subset of the Places365 dataset. Moreover, while standalone visual models displayed high accuracy on uncorrupted images, their performance deteriorated significantly with increased corruption severity. Conversely, the multimodal models demonstrated improved accuracy in clean conditions and substantial robustness to a range of image corruptions. These results highlight the efficacy of incorporating high-level contextual information through captions, suggesting a promising direction for enhancing the resilience of classification systems.
- Abstract(参考訳): 屋内シーンの分類は、知的ロボット工学のような様々な応用において重要な要素である。
ディープラーニングはこの分野を著しく進歩させてきたが、モデルはしばしば画像の破損による性能低下に悩まされる。
本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案し,キャプションに基づくセマンティック特徴を視覚データと組み合わせることで,汚職に対する精度と堅牢性を向上する。
グラフ畳み込みネットワーク(GCN)を介してCNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討する。
本研究は,Places365データセットの破損部分集合に対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。
さらに,非破壊画像に対してスタンドアロンの視覚モデルでは高い精度を示したが,その性能は汚損重大度の増加とともに著しく低下した。
逆に、マルチモーダルモデルでは、クリーンな条件下での精度が向上し、様々な画像の破損に対してかなりの堅牢性を示した。
これらの結果は,キャプションを通した高レベルの文脈情報の導入の有効性を強調し,分類システムのレジリエンスを高めるための有望な方向性を示唆している。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Survey on the Robustness of Computer Vision Models against Common Corruptions [3.6486148851646063]
コンピュータビジョンモデルは、センサーエラーや極端な撮像環境に起因する入力画像の変化に影響を受けやすい。
これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性がある。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概観する。
論文 参考訳(メタデータ) (2023-05-10T10:19:31Z) - Quality-agnostic Image Captioning to Safely Assist People with Vision
Impairment [11.864465182761945]
本稿では、合成雑音を生成するためのデータ拡張手法が、この領域におけるデータの空間性にどのように対処できるかを示す。
第二に、最先端のモデルをデュアルネットワークアーキテクチャに拡張することにより、モデルの堅牢性を高める。
第3に,困難/雑音レベルの異なる画像に対して,信頼度校正による予測信頼性の評価を行った。
論文 参考訳(メタデータ) (2023-04-28T04:32:28Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z) - Robustness and invariance properties of image classifiers [8.970032486260695]
ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。
ディープネットワークは、多種多様なセマンティック保存画像修正に対して堅牢ではない。
画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。
論文 参考訳(メタデータ) (2022-08-30T11:00:59Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。