論文の概要: Scene Image Representation by Foreground, Background and Hybrid Features
- arxiv url: http://arxiv.org/abs/2006.03199v1
- Date: Fri, 5 Jun 2020 01:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:07:58.299454
- Title: Scene Image Representation by Foreground, Background and Hybrid Features
- Title(参考訳): 前景, 背景, ハイブリッド特徴によるシーン画像の表現
- Authors: Chiranjibi Sitaula and Yong Xiang and Sunil Aryal and Xuequan Lu
- Abstract要約: 本研究では,シーンイメージを表現するために,前景と背景機能に加えてハイブリッド機能を利用することを提案する。
本手法は最先端の分類性能を実現する。
- 参考スコア(独自算出の注目度): 17.754713956659188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods for representing scene images based on deep learning
primarily consider either the foreground or background information as the
discriminating clues for the classification task. However, scene images also
require additional information (hybrid) to cope with the inter-class similarity
and intra-class variation problems. In this paper, we propose to use hybrid
features in addition to foreground and background features to represent scene
images. We suppose that these three types of information could jointly help to
represent scene image more accurately. To this end, we adopt three VGG-16
architectures pre-trained on ImageNet, Places, and Hybrid (both ImageNet and
Places) datasets for the corresponding extraction of foreground, background and
hybrid information. All these three types of deep features are further
aggregated to achieve our final features for the representation of scene
images. Extensive experiments on two large benchmark scene datasets (MIT-67 and
SUN-397) show that our method produces the state-of-the-art classification
performance.
- Abstract(参考訳): 従来の深層学習に基づくシーン画像の表現方法は,前景情報か背景情報かを,分類作業の手がかりの識別として主に考慮している。
しかし、シーン画像はクラス間の類似性とクラス内変異問題に対処するために追加情報(ハイブリッド)を必要とする。
本稿では,フォアグラウンドと背景機能に加えて,シーン画像の表現にハイブリッド機能を用いることを提案する。
これら3種類の情報によって、シーンイメージをより正確に表現できると仮定する。
そこで我々は,前景,背景,ハイブリッド情報の抽出のために,imagenet,places,hybrid(imagenetとplacesの両方)データセットをプリトレーニングしたvgg-16アーキテクチャを3つ採用した。
これら3種類の深い特徴は、シーンイメージの表現の最終特徴を達成するためにさらに集約される。
2つの大規模ベンチマークシーンデータセット(MIT-67とSUN-397)の大規模な実験により,本手法が最先端の分類性能を生んでいることが示された。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Recent Advances in Scene Image Representation and Classification [1.8369974607582584]
本稿では,画像分類に広く用いられている既存のシーン画像表現手法について概説する。
我々は、その性能を質的に(例えば、出力の品質、pros/consなど)、量的に(例えば、精度)比較する。
本稿では,従来のコンピュータビジョン(CV)ベースの手法,ディープラーニング(DL)ベースの手法,検索エンジン(SE)ベースの手法について,最近のシーン画像表現手法の詳細な知見と応用について述べる。
論文 参考訳(メタデータ) (2022-06-15T07:12:23Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z) - AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification [2.931113769364182]
本稿では,thedatasetand CV-BrCTという2つの新しいデータセットを提案する。
1つ目は、世界中の様々な場所から抽出された視点の異なる、同じ地理的座標からの3つの画像を含む。
第2のデータセットには、ブラジル南東部から抽出された空中画像とストリートレベルの画像が含まれている。
論文 参考訳(メタデータ) (2020-08-03T18:55:46Z) - Content and Context Features for Scene Image Representation [16.252523139552174]
コンテンツの特徴とコンテキストの特徴を計算し、それらを融合させる新しい手法を提案する。
コンテンツ機能については、画像の背景情報と前景情報に基づいて、マルチスケールの深い特徴を設計する。
コンテクストの特徴として、Webで利用可能な類似画像のアノテーションを使用して、フィルタワード(コードブック)を設計する。
論文 参考訳(メタデータ) (2020-06-05T03:19:13Z) - HDF: Hybrid Deep Features for Scene Image Representation [16.252523139552174]
シーンイメージのための新しいタイプの機能 - ハイブリッドディープ機能 - を提案する。
オブジェクトベースとシーンベースの両方の機能を2レベルに活用する。
導入した特徴によって,最先端の分類精度が得られることを示す。
論文 参考訳(メタデータ) (2020-03-22T01:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。