Fugu-MT 論文翻訳(概要): Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild

論文の概要: Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild

arxiv url: http://arxiv.org/abs/2408.13774v1
Date: Sun, 25 Aug 2024 08:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 18:00:02.859385
Title: Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild
Title（参考訳）: 野生のグリフの超微視的分類
Authors: Fares Bougourzi, Fadi Dornaika, Chongsheng Zhang,
Abstract要約: グリフに類似した認識課題に対する2段階のコントラスト学習手法を提案する。最初の段階では、教師付きコントラスト学習を利用してラベル情報を利用してバックボーンネットワークをウォームアップする。第2段階では、Euclidean空間とAngular空間の両方で分類とコントラスト学習を統合するネットワークアーキテクチャであるCCFG-Netを導入する。
参考スコア（独自算出の注目度）: 15.102325077732745
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text recognition in the wild is an important technique for digital maps and urban scene understanding, in which the natural resembling properties between glyphs is one of the major reasons that lead to wrong recognition results. To address this challenge, we introduce two extremely fine-grained visual recognition benchmark datasets that contain very challenging resembling glyphs (characters/letters) in the wild to be distinguished. Moreover, we propose a simple yet effective two-stage contrastive learning approach to the extremely fine-grained recognition task of resembling glyphs discrimination. In the first stage, we utilize supervised contrastive learning to leverage label information to warm-up the backbone network. In the second stage, we introduce CCFG-Net, a network architecture that integrates classification and contrastive learning in both Euclidean and Angular spaces, in which contrastive learning is applied in both supervised learning and pairwise discrimination manners to enhance the model's feature representation capability. Overall, our proposed approach effectively exploits the complementary strengths of contrastive learning and classification, leading to improved recognition performance on the resembling glyphs. Comparative evaluations with state-of-the-art fine-grained classification approaches under both Convolutional Neural Network (CNN) and Transformer backbones demonstrate the superiority of our proposed method.
Abstract（参考訳）: 野生のテキスト認識は、グリフ間の自然に類似した性質が誤認識の結果をもたらす主要な理由の1つである、デジタル地図と都市景観理解にとって重要な技術である。この課題に対処するために、我々は、非常にきめ細かな視覚認識ベンチマークデータセットを2つ導入し、そのデータセットは、区別すべき野生のグリフ(キャラクタ/レター)に非常によく似ている。さらに,グリフの識別に類似した極めてきめ細かな認識課題に対して,単純かつ効果的な2段階のコントラスト学習手法を提案する。最初の段階では、教師付きコントラスト学習を利用してラベル情報を利用してバックボーンネットワークをウォームアップする。第2段階では、ユークリッド空間とAngular空間の両方において、分類とコントラスト学習を統合したネットワークアーキテクチャであるCCFG-Netを導入し、モデルの特徴表現能力を高めるために、教師付き学習とペア識別の両方にコントラスト学習を適用した。提案手法は, 比較学習と分類の相補的な長所を効果的に活用し, 類似したグリフの認識性能を向上させる。 CNN(Convolutional Neural Network)とTransformer Backbones(Transformer Backbones)による最先端のきめ細かい分類手法との比較により,提案手法の優位性を実証した。

関連論文リスト

Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning [23.129998055266245]
現在の擬似ラベル戦略は、しばしば意味情報と視覚情報のミスマッチに苦しむ。 textbfAugmenting Dtextbfiscriminative textbfRichness via Diffusions (AiR)
論文参考訳（メタデータ） (2025-04-16T10:09:45Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
Dual-Level Cross-Modal Contrastive Clustering [4.083185193413678]
我々はDXMC(Dual-level Cross-Modal Contrastive Clustering)という画像クラスタリングフラムワークを提案する。画像とテキストのペアを生成するために使用される意味空間を構築するために、外部テキスト情報が導入される。予め訓練された画像とテキストエンコーダに画像とテキストのペアをそれぞれ送信し、4つのよく設計されたネットワークに次々に供給される画像とテキストの埋め込みを得る。
論文参考訳（メタデータ） (2024-09-06T18:49:45Z)
Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文参考訳（メタデータ） (2024-09-03T10:52:27Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。 Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文参考訳（メタデータ） (2023-08-03T17:33:20Z)
Hierarchical Contrastive Learning Enhanced Heterogeneous Graph Neural Network [59.860534520941485]
ヘテロジニアスグラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)を扱う能力に優れていた。近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。
論文参考訳（メタデータ） (2023-04-24T16:17:21Z)
Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文参考訳（メタデータ） (2022-05-23T17:38:30Z)
Fair Contrastive Learning for Facial Attribute Classification [25.436462696033846]
公正な視覚表現学習のためのFair Supervised Contrastive Loss (FSCL)を提案する。本稿では,教師付きコントラスト学習による不公平性を初めて分析する。提案手法はデータバイアスの強度に頑健であり,不完全な教師付き設定で効果的に機能する。
論文参考訳（メタデータ） (2022-03-30T11:16:18Z)
The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文参考訳（メタデータ） (2022-03-10T23:35:00Z)
Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning [48.09362183184101]
マルチスケールのコントラスト学習によるシームズ自己蒸留の強化により,ノード表現を学習するための新しい自己教師型アプローチを提案する。提案手法は,新しい最先端の成果を達成し,半教師ありの成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-05-12T14:20:13Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)
Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification [31.647639786095993]
画像表現の教師付きコントラスト損失と、分類器を学習するためのクロスエントロピー損失からなる新しいハイブリッドネットワーク構造を提案する。 3つの長尾分類データセットに関する実験は、長尾分類における比較学習に基づくハイブリッドネットワークの提案の利点を示している。
論文参考訳（メタデータ） (2021-03-26T05:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。