論文の概要: Content and Context Features for Scene Image Representation
- arxiv url: http://arxiv.org/abs/2006.03217v3
- Date: Sat, 24 Apr 2021 05:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:07:39.083156
- Title: Content and Context Features for Scene Image Representation
- Title(参考訳): シーン画像表現のためのコンテンツとコンテキスト特徴
- Authors: Chiranjibi Sitaula and Sunil Aryal and Yong Xiang and Anish Basnet and
Xuequan Lu
- Abstract要約: コンテンツの特徴とコンテキストの特徴を計算し、それらを融合させる新しい手法を提案する。
コンテンツ機能については、画像の背景情報と前景情報に基づいて、マルチスケールの深い特徴を設計する。
コンテクストの特徴として、Webで利用可能な類似画像のアノテーションを使用して、フィルタワード(コードブック)を設計する。
- 参考スコア(独自算出の注目度): 16.252523139552174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research in scene image classification has focused on either content
features (e.g., visual information) or context features (e.g., annotations). As
they capture different information about images which can be complementary and
useful to discriminate images of different classes, we suppose the fusion of
them will improve classification results. In this paper, we propose new
techniques to compute content features and context features, and then fuse them
together. For content features, we design multi-scale deep features based on
background and foreground information in images. For context features, we use
annotations of similar images available in the web to design a filter words
(codebook). Our experiments in three widely used benchmark scene datasets using
support vector machine classifier reveal that our proposed context and content
features produce better results than existing context and content features,
respectively. The fusion of the proposed two types of features significantly
outperform numerous state-of-the-art features.
- Abstract(参考訳): シーンイメージ分類における既存の研究は、コンテンツ特徴(例えば、視覚情報)またはコンテキスト特徴(例えば、アノテーション)に焦点を当てている。
相補的で,異なるクラスの画像の識別に有用である画像の異なる情報を取得することにより,それらの融合により分類結果が改善されると考えられる。
本稿では,コンテンツの特徴やコンテキストの特徴を計算し,それらを融合させる新しい手法を提案する。
コンテンツ機能については,画像の背景情報と前景情報に基づくマルチスケールの深い特徴を設計する。
コンテクストの特徴として、Webで利用可能な類似画像のアノテーションを使用して、フィルタワード(コードブック)を設計する。
サポートベクターマシン分類器を用いた3つのベンチマークシーンデータセットを用いた実験により,提案するコンテキスト特徴とコンテンツ特徴が,既存のコンテキストとコンテンツ特徴よりも優れた結果を生み出すことが明らかになった。
提案された2種類の特徴の融合は、多くの最先端の特徴を著しく上回っている。
関連論文リスト
- Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。
実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文 参考訳(メタデータ) (2020-07-13T14:09:29Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z) - HDF: Hybrid Deep Features for Scene Image Representation [16.252523139552174]
シーンイメージのための新しいタイプの機能 - ハイブリッドディープ機能 - を提案する。
オブジェクトベースとシーンベースの両方の機能を2レベルに活用する。
導入した特徴によって,最先端の分類精度が得られることを示す。
論文 参考訳(メタデータ) (2020-03-22T01:05:08Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。