論文の概要: An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium
- arxiv url: http://arxiv.org/abs/2001.10590v1
- Date: Sun, 26 Jan 2020 05:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:34:24.502760
- Title: An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium
- Title(参考訳): 注意モデルとデータ平衡を用いた効果的な自動画像アノテーションモデル
- Authors: Amir Vatani, Milad Taleby Ahvanooey, Mostafa Rahimi
- Abstract要約: 提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, a huge number of images are available. However, retrieving a
required image for an ordinary user is a challenging task in computer vision
systems. During the past two decades, many types of research have been
introduced to improve the performance of the automatic annotation of images,
which are traditionally focused on content-based image retrieval. Although,
recent research demonstrates that there is a semantic gap between content-based
image retrieval and image semantics understandable by humans. As a result,
existing research in this area has caused to bridge the semantic gap between
low-level image features and high-level semantics. The conventional method of
bridging the semantic gap is through the automatic image annotation (AIA) that
extracts semantic features using machine learning techniques. In this paper, we
propose a novel AIA model based on the deep learning feature extraction method.
The proposed model has three phases, including a feature extractor, a tag
generator, and an image annotator. First, the proposed model extracts
automatically the high and low-level features based on dual-tree continues
wavelet transform (DT-CWT), singular value decomposition, distribution of color
ton, and the deep neural network. Moreover, the tag generator balances the
dictionary of the annotated keywords by a new log-entropy auto-encoder (LEAE)
and then describes these keywords by word embedding. Finally, the annotator
works based on the long-short-term memory (LSTM) network in order to obtain the
importance degree of specific features of the image. The experiments conducted
on two benchmark datasets confirm that the superiority of the proposed model
compared to the previous models in terms of performance criteria.
- Abstract(参考訳): 現在、膨大な数の画像が利用可能である。
しかし,コンピュータビジョンシステムでは,一般ユーザに必要な画像の検索が困難な課題である。
過去20年間で、伝統的にコンテンツに基づく画像検索に焦点をあてた画像の自動アノテーションの性能向上のために、多くの研究が導入された。
近年の研究では、コンテンツに基づく画像検索と人間の理解可能な画像意味学の間に意味的ギャップがあることが示されている。
その結果、この分野における既存の研究は、低レベルの画像特徴と高レベルの意味論の間の意味的ギャップを橋渡ししている。
意味的ギャップを埋める従来の方法は、機械学習技術を用いて意味的特徴を抽出する自動画像アノテーション(AIA)によって行われる。
本稿では,ディープラーニング特徴抽出法に基づく新しいAIAモデルを提案する。
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
まず,双本木継続ウェーブレット変換(dt-cwt),特異値分解,色トン分布,ディープニューラルネットワークに基づいて,高レベルと低レベルの特徴を自動的に抽出する。
さらに、タグ生成器は、新しい対数エントロピーオートエンコーダ(LEAE)による注釈付きキーワードの辞書のバランスをとり、単語埋め込みによってこれらのキーワードを記述する。
最後に、アノテータは、画像の特定の特徴の重要度を得るために、長期記憶(LSTM)ネットワークに基づいて動作する。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルと比較して性能基準で優位であることが確認された。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。