論文の概要: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2407.20600v2
- Date: Sun, 12 Jan 2025 08:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:08.651177
- Title: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning
- Title(参考訳): カテゴリー的知識融合認識:階層的知識と画像分類の融合
- Authors: Yunfeng Zhao, Huiyu Zhou, Fei Wu, Xifeng Wu,
- Abstract要約: 本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに融合させる,新しい深度学習手法を提案する。
提案手法は,弱教師付きオブジェクトローカライゼーション性能の観点から,画像認識の推論的側面を向上させるのに有効である。
- 参考スコア(独自算出の注目度): 18.534970504136254
- License:
- Abstract: Image classification is a fundamental computer vision task and an important baseline for deep metric learning. In decades efforts have been made on enhancing image classification accuracy by using deep learning models while less attention has been paid on the reasoning aspect of the recognition, i.e., predictions could be made because of background or other surrounding objects rather than the target object. Hierarchical knowledge about image categories depicts inter-class similarities or dissimilarities. Effective fusion of such knowledge with deep learning image classification models is promising in improving target object identification and enhancing the reasoning aspect of the recognition. In this paper, we propose a novel deep metric learning based method to effectively fuse prior knowledge about image categories with mainstream backbone image classification models and enhance the reasoning aspect of the recognition in an end-to-end manner. Existing deep metric learning incorporated image classification methods mainly focus on whether sampled images are from the same class. A new triplet loss function term that aligns distances in the model latent space with those in knowledge space is presented and incorporated in the proposed method to facilitate the dual-modality fusion. Extensive experiments on the CIFAR-10, CIFAR-100, Mini-ImageNet, and ImageNet-1K datasets evaluated the proposed method, and results indicate that the proposed method is effective in enhancing the reasoning aspect of image recognition in terms of weakly-supervised object localization performance.
- Abstract(参考訳): 画像分類はコンピュータビジョンの基本課題であり、深層学習の重要なベースラインである。
深層学習モデルを用いて画像分類精度を向上させる努力が何十年にもわたって行われてきたが、認識の推論的側面、すなわち、対象対象物ではなく、背景や周囲の物体によって予測できる点に注意が払われている。
イメージカテゴリに関する階層的な知識は、クラス間の類似性や相違性を表している。
このような知識を深層学習画像分類モデルと効果的に融合させることで、対象物体の識別を改善し、認識の推論的側面を高めることが期待できる。
本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに効果的に融合させ,エンド・ツー・エンドで認識の推論的側面を高めるための,新しい深層学習手法を提案する。
画像分類法を取り入れた既存の深度学習は, サンプル画像が同一クラスであるか否かに重点を置いている。
モデル潜在空間と知識空間の距離を整合させる新しい三重項損失関数を提案し, 2重モード融合を促進するために提案手法に組み込んだ。
CIFAR-10, CIFAR-100, Mini-ImageNet, ImageNet-1Kデータセットの広汎な実験により提案手法の評価を行った。
関連論文リスト
- Learn and Search: An Elegant Technique for Object Lookup using
Contrastive Learning [6.912349403119665]
ラーン・アンド・サーチ(Learn and Search)は,コントラスト学習の力を活用して検索システムの効率性と有効性を高める,オブジェクト検索の新しいアプローチである。
「学習と探索」は、画像内の極端に類似した領域の識別において、その有効性を示す優れた類似性グリッド精度を実現する。
論文 参考訳(メタデータ) (2024-03-12T00:58:19Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Mitigating Bias: Enhancing Image Classification by Improving Model
Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。
モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。
本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文 参考訳(メタデータ) (2023-07-04T04:46:44Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。