論文の概要: EnTri: Ensemble Learning with Tri-level Representations for Explainable
Scene Recognition
- arxiv url: http://arxiv.org/abs/2307.12442v1
- Date: Sun, 23 Jul 2023 22:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:11:21.678876
- Title: EnTri: Ensemble Learning with Tri-level Representations for Explainable
Scene Recognition
- Title(参考訳): EnTri: 説明可能なシーン認識のための3レベル表現によるアンサンブル学習
- Authors: Amirhossein Aminimehr, Amirali Molaei, Erik Cambria
- Abstract要約: ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
- 参考スコア(独自算出の注目度): 12.456183060562317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene recognition based on deep-learning has made significant progress, but
there are still limitations in its performance due to challenges posed by
inter-class similarities and intra-class dissimilarities. Furthermore, prior
research has primarily focused on improving classification accuracy, yet it has
given less attention to achieving interpretable, precise scene classification.
Therefore, we are motivated to propose EnTri, an ensemble scene recognition
framework that employs ensemble learning using a hierarchy of visual features.
EnTri represents features at three distinct levels of detail: pixel-level,
semantic segmentation-level, and object class and frequency level. By
incorporating distinct feature encoding schemes of differing complexity and
leveraging ensemble strategies, our approach aims to improve classification
accuracy while enhancing transparency and interpretability via visual and
textual explanations. To achieve interpretability, we devised an extension
algorithm that generates both visual and textual explanations highlighting
various properties of a given scene that contribute to the final prediction of
its category. This includes information about objects, statistics, spatial
layout, and textural details. Through experiments on benchmark scene
classification datasets, EnTri has demonstrated superiority in terms of
recognition accuracy, achieving competitive performance compared to
state-of-the-art approaches, with an accuracy of 87.69%, 75.56%, and 99.17% on
the MIT67, SUN397, and UIUC8 datasets, respectively.
- Abstract(参考訳): 深層学習に基づくシーン認識は大きな進歩を遂げているが,クラス間類似性やクラス内類似性による課題により,その性能にはまだ限界がある。
さらに、先行研究は主に分類精度の向上に重点を置いているが、解釈可能な正確なシーン分類を達成することにはあまり注意を向けていない。
そこで我々は,視覚特徴の階層構造を用いたアンサンブル学習を利用したアンサンブルシーン認識フレームワークであるEnTriを提案する。
entriはピクセルレベル、セマンティクスセグメンテーションレベル、オブジェクトクラス、周波数レベルという3つの異なる詳細レベルで機能を表現する。
複雑さの異なる特徴符号化方式を取り入れ,アンサンブル戦略を活用することにより,視覚的・テキスト的説明による透明性と解釈性を向上し,分類精度の向上を目指す。
解釈可能性を達成するために,カテゴリの最終予測に寄与する所定のシーンの様々な特性を強調する視覚とテキストの両方の説明を生成する拡張アルゴリズムを考案した。
これには、オブジェクト、統計、空間レイアウト、テキストの詳細に関する情報が含まれる。
ベンチマークシーン分類データセットの実験を通じて、entriは認識精度の面で優位を示し、mit67、sun397、uiuc8のデータセットで87.69%、75.56%、99.17%の精度で最先端のアプローチと比較して競争力を達成した。
関連論文リスト
- CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - Unsupervised Semantic Segmentation Through Depth-Guided Feature Correlation and Sampling [14.88236554564287]
本研究では,シーンの構造に関する情報を学習プロセスに組み込むことにより,教師なし学習の進歩を構築する。
本研究では,(1)特徴マップと深度マップを空間的に相関させて深度-特徴相関を学習し,シーンの構造に関する知識を誘導する。
次に,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出するために,最遠点サンプリングを実装した。
論文 参考訳(メタデータ) (2023-09-21T11:47:01Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Scene Recognition with Objectness, Attribute and Category Learning [8.581276116041401]
シーン分類は、それ自体が挑戦的な研究課題として確立されている。
画像認識は、シーン認識の優れたパフォーマンスの鍵となる。
本稿では,カテゴリ埋め込みを学習し,同時にシーン特性を予測するマルチタスク属性・シーン認識ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T19:51:54Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Exploring Set Similarity for Dense Self-supervised Representation
Learning [96.35286140203407]
本研究では,高密度自己教師型表現学習のためのtextbfset textbfsimilarity (SetSim) を提案する。
ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックな情報や構造的な情報を含むため,ロバスト性を向上させる。
具体的には、ビューの注意的特徴に頼って対応する集合を定め、不適切な対応を引き起こす可能性のあるノイズの多い背景をフィルタリングする。
論文 参考訳(メタデータ) (2021-07-19T09:38:27Z) - Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification [18.299463254965264]
クラス知識と視覚的特徴学習に基づく新しいゼロショット学習手法GAN-CSTを提案する。
提案されたモデルは最先端のアプローチよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-02-26T06:34:35Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。