論文の概要: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2407.20600v2
- Date: Sun, 12 Jan 2025 08:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:08.651177
- Title: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning
- Title(参考訳): カテゴリー的知識融合認識:階層的知識と画像分類の融合
- Authors: Yunfeng Zhao, Huiyu Zhou, Fei Wu, Xifeng Wu,
- Abstract要約: 本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに融合させる,新しい深度学習手法を提案する。
提案手法は,弱教師付きオブジェクトローカライゼーション性能の観点から,画像認識の推論的側面を向上させるのに有効である。
- 参考スコア(独自算出の注目度): 18.534970504136254
- License:
- Abstract: Image classification is a fundamental computer vision task and an important baseline for deep metric learning. In decades efforts have been made on enhancing image classification accuracy by using deep learning models while less attention has been paid on the reasoning aspect of the recognition, i.e., predictions could be made because of background or other surrounding objects rather than the target object. Hierarchical knowledge about image categories depicts inter-class similarities or dissimilarities. Effective fusion of such knowledge with deep learning image classification models is promising in improving target object identification and enhancing the reasoning aspect of the recognition. In this paper, we propose a novel deep metric learning based method to effectively fuse prior knowledge about image categories with mainstream backbone image classification models and enhance the reasoning aspect of the recognition in an end-to-end manner. Existing deep metric learning incorporated image classification methods mainly focus on whether sampled images are from the same class. A new triplet loss function term that aligns distances in the model latent space with those in knowledge space is presented and incorporated in the proposed method to facilitate the dual-modality fusion. Extensive experiments on the CIFAR-10, CIFAR-100, Mini-ImageNet, and ImageNet-1K datasets evaluated the proposed method, and results indicate that the proposed method is effective in enhancing the reasoning aspect of image recognition in terms of weakly-supervised object localization performance.
- Abstract(参考訳): 画像分類はコンピュータビジョンの基本課題であり、深層学習の重要なベースラインである。
深層学習モデルを用いて画像分類精度を向上させる努力が何十年にもわたって行われてきたが、認識の推論的側面、すなわち、対象対象物ではなく、背景や周囲の物体によって予測できる点に注意が払われている。
イメージカテゴリに関する階層的な知識は、クラス間の類似性や相違性を表している。
このような知識を深層学習画像分類モデルと効果的に融合させることで、対象物体の識別を改善し、認識の推論的側面を高めることが期待できる。
本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに効果的に融合させ,エンド・ツー・エンドで認識の推論的側面を高めるための,新しい深層学習手法を提案する。
画像分類法を取り入れた既存の深度学習は, サンプル画像が同一クラスであるか否かに重点を置いている。
モデル潜在空間と知識空間の距離を整合させる新しい三重項損失関数を提案し, 2重モード融合を促進するために提案手法に組み込んだ。
CIFAR-10, CIFAR-100, Mini-ImageNet, ImageNet-1Kデータセットの広汎な実験により提案手法の評価を行った。
関連論文リスト
- Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision
Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。
このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。
本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:46:48Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Label-Free Event-based Object Recognition via Joint Learning with Image
Reconstruction from Events [42.71383489578851]
本研究では,カテゴリラベルとペア画像が利用できない,ラベルのないイベントベースオブジェクト認識について検討する。
提案手法はまずイベントからイメージを再構成し,コントラスト言語-画像事前学習(CLIP)によるオブジェクト認識を行う。
画像の再構成にはカテゴリ情報が不可欠であるため,カテゴリ誘導アトラクション損失とカテゴリ非依存の反発損失を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:28:17Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Learning semantic Image attributes using Image recognition and knowledge
graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。
提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文 参考訳(メタデータ) (2020-09-12T15:18:48Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。