論文の概要: Deep Semantic Dictionary Learning for Multi-label Image Classification
- arxiv url: http://arxiv.org/abs/2012.12509v2
- Date: Fri, 2 Apr 2021 12:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:09:33.781283
- Title: Deep Semantic Dictionary Learning for Multi-label Image Classification
- Title(参考訳): マルチラベル画像分類のための深層意味辞書学習
- Authors: Fengtao Zhou and Sheng Huang and Yun Xing
- Abstract要約: 本稿では,辞書学習課題であるマルチラベル画像分類の解法に向けて,革新的な方法を提案する。
Deep Semantic Dictionary Learning(DSDL)という新しいエンドツーエンドモデルが設計されている。
コードとモデルを公開しました。
- 参考スコア(独自算出の注目度): 3.3989824361632337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compared with single-label image classification, multi-label image
classification is more practical and challenging. Some recent studies attempted
to leverage the semantic information of categories for improving multi-label
image classification performance. However, these semantic-based methods only
take semantic information as type of complements for visual representation
without further exploitation. In this paper, we present an innovative path
towards the solution of the multi-label image classification which considers it
as a dictionary learning task. A novel end-to-end model named Deep Semantic
Dictionary Learning (DSDL) is designed. In DSDL, an auto-encoder is applied to
generate the semantic dictionary from class-level semantics and then such
dictionary is utilized for representing the visual features extracted by
Convolutional Neural Network (CNN) with label embeddings. The DSDL provides a
simple but elegant way to exploit and reconcile the label, semantic and visual
spaces simultaneously via conducting the dictionary learning among them.
Moreover, inspired by iterative optimization of traditional dictionary
learning, we further devise a novel training strategy named Alternately
Parameters Update Strategy (APUS) for optimizing DSDL, which alternately
optimizes the representation coefficients and the semantic dictionary in
forward and backward propagation. Extensive experimental results on three
popular benchmarks demonstrate that our method achieves promising performances
in comparison with the state-of-the-arts. Our codes and models have been
released at {https://github.com/ZFT-CQU/DSDL}.
- Abstract(参考訳): シングルラベル画像分類と比較して、マルチラベル画像分類はより実用的で困難である。
最近の研究では、複数ラベル画像の分類性能を改善するためにカテゴリの意味情報を活用しようと試みている。
しかし,これらの意味に基づく手法は,視覚表現の補完として意味情報のみを活用できる。
本稿では,これを辞書学習課題とみなすマルチラベル画像分類の解決に向けて,革新的な方法を提案する。
DSDL(Deep Semantic Dictionary Learning)と呼ばれる新しいエンドツーエンドモデルが設計されている。
dsdlでは、クラスレベルの意味論から意味辞書を生成するために自動エンコーダを適用し、畳み込みニューラルネットワーク(cnn)によって抽出された視覚的特徴をラベル埋め込みで表現する。
DSDLは、ラベル、セマンティック、および視覚空間を同時に活用し、相互に辞書学習を行うことによって、シンプルだがエレガントな方法を提供する。
さらに,従来の辞書学習の反復的最適化に触発されて,表現係数と意味辞書を前方および後方伝播で交互に最適化するdsdl最適化のための,交互パラメータ更新戦略(apus)と呼ばれる新しい学習戦略を考案した。
3つの一般的なベンチマークによる実験結果から,本手法は最先端技術と比較して有望な性能を達成できた。
私たちのコードとモデルは、https://github.com/ZFT-CQU/DSDL}でリリースされました。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Contextual Dictionary Lookup for Knowledge Graph Completion [32.493168863565465]
知識グラフ補完(KGC)は、知識グラフの不完全性(KGs)を解決することを目的として、既知の三重項から欠落するリンクを予測する。
既存の埋め込みモデルは、それぞれの関係を一意なベクトルにマッピングし、異なる実体の下でそれらの特定の粒度のセマンティクスを見渡す。
本稿では,従来の埋め込みモデルを用いて,関係の微粒なセマンティクスをエンド・ツー・エンドで学習することのできる,文脈辞書検索を利用した新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T12:13:41Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Deep Dictionary Learning with An Intra-class Constraint [23.679645826983503]
視覚分類のためのクラス内制約(DDLIC)を用いた新しい深層辞書学習モデルを提案する。
具体的には、クラス内表現が互いに近接するように、異なるレベルにおける中間表現のクラス内コンパクト性制約を設計する。
従来のDDL手法とは異なり、分類段階において、DDLICはトレーニング段階と同じような方法で階層的にグレディな最適化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:54:58Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Multi-layered Semantic Representation Network for Multi-label Image
Classification [8.17894017454724]
マルチラベル画像分類(MLIC)は,複数の可能なラベルを画像に割り当てることを目的とした,基本的で実践的な課題である。
近年,多くのディープ畳み込みニューラルネットワーク(CNN)に基づく手法が提案され,ラベル相関がモデル化されている。
本稿では,ラベル相関のモデル化と意味表現の学習を改善することにより,この研究の方向性を推し進める。
論文 参考訳(メタデータ) (2021-06-22T08:04:22Z) - DLDL: Dynamic Label Dictionary Learning via Hypergraph Regularization [17.34373273007931]
ラベルなしデータに対するソフトラベル行列を生成するための動的ラベル辞書学習(DLDL)アルゴリズムを提案する。
具体的には、原データ、変換データ、ソフトラベル間の関係の整合性を維持するために、ハイパーグラフ多様体の正規化を用いる。
論文 参考訳(メタデータ) (2020-10-23T14:07:07Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。