Fugu-MT 論文翻訳(概要): Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning

論文の概要: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning

arxiv url: http://arxiv.org/abs/2407.20600v2
Date: Sun, 12 Jan 2025 08:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.675182
Title: Categorical Knowledge Fused Recognition: Fusing Hierarchical Knowledge with Image Classification through Aligning and Deep Metric Learning
Title（参考訳）: カテゴリー的知識融合認識:階層的知識と画像分類の融合
Authors: Yunfeng Zhao, Huiyu Zhou, Fei Wu, Xifeng Wu,
Abstract要約: 本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに融合させる,新しい深度学習手法を提案する。提案手法は,弱教師付きオブジェクトローカライゼーション性能の観点から,画像認識の推論的側面を向上させるのに有効である。
参考スコア（独自算出の注目度）: 18.534970504136254
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Image classification is a fundamental computer vision task and an important baseline for deep metric learning. In decades efforts have been made on enhancing image classification accuracy by using deep learning models while less attention has been paid on the reasoning aspect of the recognition, i.e., predictions could be made because of background or other surrounding objects rather than the target object. Hierarchical knowledge about image categories depicts inter-class similarities or dissimilarities. Effective fusion of such knowledge with deep learning image classification models is promising in improving target object identification and enhancing the reasoning aspect of the recognition. In this paper, we propose a novel deep metric learning based method to effectively fuse prior knowledge about image categories with mainstream backbone image classification models and enhance the reasoning aspect of the recognition in an end-to-end manner. Existing deep metric learning incorporated image classification methods mainly focus on whether sampled images are from the same class. A new triplet loss function term that aligns distances in the model latent space with those in knowledge space is presented and incorporated in the proposed method to facilitate the dual-modality fusion. Extensive experiments on the CIFAR-10, CIFAR-100, Mini-ImageNet, and ImageNet-1K datasets evaluated the proposed method, and results indicate that the proposed method is effective in enhancing the reasoning aspect of image recognition in terms of weakly-supervised object localization performance.
Abstract（参考訳）: 画像分類はコンピュータビジョンの基本課題であり、深層学習の重要なベースラインである。深層学習モデルを用いて画像分類精度を向上させる努力が何十年にもわたって行われてきたが、認識の推論的側面、すなわち、対象対象物ではなく、背景や周囲の物体によって予測できる点に注意が払われている。イメージカテゴリに関する階層的な知識は、クラス間の類似性や相違性を表している。このような知識を深層学習画像分類モデルと効果的に融合させることで、対象物体の識別を改善し、認識の推論的側面を高めることが期待できる。本稿では,画像カテゴリに関する事前知識を主流のバックボーン画像分類モデルに効果的に融合させ,エンド・ツー・エンドで認識の推論的側面を高めるための,新しい深層学習手法を提案する。画像分類法を取り入れた既存の深度学習は, サンプル画像が同一クラスであるか否かに重点を置いている。モデル潜在空間と知識空間の距離を整合させる新しい三重項損失関数を提案し, 2重モード融合を促進するために提案手法に組み込んだ。 CIFAR-10, CIFAR-100, Mini-ImageNet, ImageNet-1Kデータセットの広汎な実験により提案手法の評価を行った。

関連論文リスト

Learn and Search: An Elegant Technique for Object Lookup using Contrastive Learning [6.912349403119665]
ラーン・アンド・サーチ(Learn and Search)は,コントラスト学習の力を活用して検索システムの効率性と有効性を高める,オブジェクト検索の新しいアプローチである。「学習と探索」は、画像内の極端に類似した領域の識別において、その有効性を示す優れた類似性グリッド精度を実現する。
論文参考訳（メタデータ） (2024-03-12T00:58:19Z)
Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision Transformers for High-Level Image Classification [0.1843404256219181]
我々は,交流画像分類の性能と解釈性を高めるために,文化的イメージの位置認識的知識を活用する。このリソースは、ACでラベル付けされた14,000以上の文化画像から得られた知覚的セマンティクスをキャプチャする。本稿では,KGE埋め込みの知覚的知識と深部視覚モデルの知覚的知覚的理解の相乗効果と相補性を示す。
論文参考訳（メタデータ） (2024-02-29T16:46:48Z)
Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文参考訳（メタデータ） (2023-09-11T16:21:13Z)
Label-Free Event-based Object Recognition via Joint Learning with Image Reconstruction from Events [42.71383489578851]
本研究では,カテゴリラベルとペア画像が利用できない,ラベルのないイベントベースオブジェクト認識について検討する。提案手法はまずイベントからイメージを再構成し,コントラスト言語-画像事前学習(CLIP)によるオブジェクト認識を行う。画像の再構成にはカテゴリ情報が不可欠であるため,カテゴリ誘導アトラクション損失とカテゴリ非依存の反発損失を提案する。
論文参考訳（メタデータ） (2023-08-18T08:28:17Z)
Mitigating Bias: Enhancing Image Classification by Improving Model Explanations [9.791305104409057]
ディープラーニングモデルは、画像の背景にあるシンプルで容易に識別できる特徴に大きく依存する傾向がある。モデルに十分な注意を前景に割り当てるよう促すメカニズムを導入する。本研究は,画像内の主概念の理解と表現を高める上で,前景の注意が重要であることを明らかにする。
論文参考訳（メタデータ） (2023-07-04T04:46:44Z)
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-11T16:05:03Z)
Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文参考訳（メタデータ） (2022-05-09T17:51:44Z)
LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文参考訳（メタデータ） (2022-04-06T17:48:18Z)
Hybrid Optimized Deep Convolution Neural Network based Learning Model for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文参考訳（メタデータ） (2022-03-02T04:39:37Z)
Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文参考訳（メタデータ） (2021-12-21T17:10:21Z)
Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文参考訳（メタデータ） (2021-09-22T18:34:14Z)
Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文参考訳（メタデータ） (2021-08-23T09:31:18Z)
Unifying Remote Sensing Image Retrieval and Classification with Robust Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文参考訳（メタデータ） (2021-02-26T11:01:30Z)
Learning semantic Image attributes using Image recognition and knowledge graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文参考訳（メタデータ） (2020-09-12T15:18:48Z)
Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2020-04-14T16:29:42Z)
DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文参考訳（メタデータ） (2020-03-15T08:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。