論文の概要: HDF: Hybrid Deep Features for Scene Image Representation
- arxiv url: http://arxiv.org/abs/2003.09773v1
- Date: Sun, 22 Mar 2020 01:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:14:40.901680
- Title: HDF: Hybrid Deep Features for Scene Image Representation
- Title(参考訳): HDF: シーン画像表現のためのハイブリッドディープ機能
- Authors: Chiranjibi Sitaula and Yong Xiang and Anish Basnet and Sunil Aryal and
Xuequan Lu
- Abstract要約: シーンイメージのための新しいタイプの機能 - ハイブリッドディープ機能 - を提案する。
オブジェクトベースとシーンベースの両方の機能を2レベルに活用する。
導入した特徴によって,最先端の分類精度が得られることを示す。
- 参考スコア(独自算出の注目度): 16.252523139552174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays it is prevalent to take features extracted from pre-trained deep
learning models as image representations which have achieved promising
classification performance. Existing methods usually consider either
object-based features or scene-based features only. However, both types of
features are important for complex images like scene images, as they can
complement each other. In this paper, we propose a novel type of features --
hybrid deep features, for scene images. Specifically, we exploit both
object-based and scene-based features at two levels: part image level (i.e.,
parts of an image) and whole image level (i.e., a whole image), which produces
a total number of four types of deep features. Regarding the part image level,
we also propose two new slicing techniques to extract part based features.
Finally, we aggregate these four types of deep features via the concatenation
operator. We demonstrate the effectiveness of our hybrid deep features on three
commonly used scene datasets (MIT-67, Scene-15, and Event-8), in terms of the
scene image classification task. Extensive comparisons show that our introduced
features can produce state-of-the-art classification accuracies which are more
consistent and stable than the results of existing features across all
datasets.
- Abstract(参考訳): 現在では,事前学習したディープラーニングモデルから抽出した特徴を,有望な分類性能を達成した画像表現として捉えることが一般的である。
既存のメソッドは通常、オブジェクトベースの機能かシーンベースの機能のみを考える。
しかし、どちらのタイプの機能もシーンイメージのような複雑な画像にとって重要であり、互いに補完することができる。
本稿では,シーン画像のための新しい特徴 -ハイブリッド深層特徴 - を提案する。
具体的には、オブジェクトベースとシーンベースの両方の特徴を、部分画像レベル(画像の一部)と全体画像レベル(画像全体)の2つのレベルで利用し、合計4種類の深い特徴を生成する。
また,部分画像のレベルに関して,部分的特徴を抽出する2つの新しいスライシング手法を提案する。
最後に、連結演算子を介してこれら4種類の深い特徴を集約する。
本研究では,3つのシーンデータセット(MIT-67, Scene-15, Event-8)のシーン画像分類タスクにおいて,ハイブリッドな深度特徴の有効性を示す。
広範な比較によって,導入した機能は,すべてのデータセットにまたがる既存機能の結果よりも一貫性と安定性を備えた最先端の分類アキュラティを生成できることが分かりました。
関連論文リスト
- Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Content and Context Features for Scene Image Representation [16.252523139552174]
コンテンツの特徴とコンテキストの特徴を計算し、それらを融合させる新しい手法を提案する。
コンテンツ機能については、画像の背景情報と前景情報に基づいて、マルチスケールの深い特徴を設計する。
コンテクストの特徴として、Webで利用可能な類似画像のアノテーションを使用して、フィルタワード(コードブック)を設計する。
論文 参考訳(メタデータ) (2020-06-05T03:19:13Z) - Scene Image Representation by Foreground, Background and Hybrid Features [17.754713956659188]
本研究では,シーンイメージを表現するために,前景と背景機能に加えてハイブリッド機能を利用することを提案する。
本手法は最先端の分類性能を実現する。
論文 参考訳(メタデータ) (2020-06-05T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。