論文の概要: Fine Grain Classification: Connecting Meta using Cross-Contrastive pre-training
- arxiv url: http://arxiv.org/abs/2504.20322v1
- Date: Tue, 29 Apr 2025 00:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.699783
- Title: Fine Grain Classification: Connecting Meta using Cross-Contrastive pre-training
- Title(参考訳): 微粒化:クロスコントラスト事前学習を用いたメタ接続
- Authors: Sumit Mamtani, Yash Thesia,
- Abstract要約: 本稿では,メタ情報を活用し,詳細な識別を支援する新しいフレームワークを提案する。
我々は,クロスコントラスト学習による視覚情報とメタ情報の共同学習に取り組む。
NABirdsデータセットの実験により,我々のフレームワークはメタ情報を有効に活用し,微粒化認識性能を向上することを示した。
- 参考スコア(独自算出の注目度): 0.06906005491572399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification aims to recognize objects belonging to multiple subordinate categories within a super-category. However, this remains a challenging problem, as appearance information alone is often insufficient to accurately differentiate between fine-grained visual categories. To address this, we propose a novel and unified framework that leverages meta-information to assist fine-grained identification. We tackle the joint learning of visual and meta-information through cross-contrastive pre-training. In the first stage, we employ three encoders for images, text, and meta-information, aligning their projected embeddings to achieve better representations. We then fine-tune the image and meta-information encoders for the classification task. Experiments on the NABirds dataset demonstrate that our framework effectively utilizes meta-information to enhance fine-grained recognition performance. With the addition of meta-information, our framework surpasses the current baseline on NABirds by 7.83%. Furthermore, it achieves an accuracy of 84.44% on the NABirds dataset, outperforming many existing state-of-the-art approaches that utilize meta-information.
- Abstract(参考訳): きめ細かい視覚分類は、スーパーカテゴリ内の複数の下位カテゴリに属するオブジェクトを認識することを目的としている。
しかし、外観情報だけでは、きめ細かい視覚カテゴリーを正確に区別するには不十分であることが多いため、これは依然として困難な問題である。
そこで本稿では,メタ情報を活用し,詳細な識別を支援する新しい統一フレームワークを提案する。
我々は,クロスコントラスト学習による視覚情報とメタ情報の共同学習に取り組む。
最初の段階では、画像、テキスト、メタ情報に3つのエンコーダを使用し、より優れた表現を実現するために、投影された埋め込みを整列する。
次に、分類タスクのための画像とメタ情報エンコーダを微調整する。
NABirdsデータセットの実験により,我々のフレームワークはメタ情報を有効に活用し,微粒化認識性能を向上することを示した。
メタ情報の追加により、NABirdsの現在のベースラインを7.83%超えました。
さらに、NABirdsデータセットの84.44%の精度を達成し、メタ情報を利用する既存の最先端アプローチよりも優れている。
関連論文リスト
- Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class Discovery [65.16724941038052]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition [27.199124692225777]
ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
論文 参考訳(メタデータ) (2023-07-23T22:11:23Z) - Exploring Weakly Supervised Semantic Segmentation Ensembles for Medical
Imaging Systems [11.693197342734152]
画像中の医療条件の信頼性の高い分類と検出のための枠組みを提案する。
我々のフレームワークは、まず低しきい値CAMを用いてターゲットオブジェクトを高い確実性でカバーする。
我々は,BRATSでは最大8%,DECATHLONデータセットでは6%の改善ダイススコアを実証した。
論文 参考訳(メタデータ) (2023-03-14T13:31:05Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - MetaFormer: A Unified Meta Framework for Fine-Grained Recognition [16.058297377539418]
視覚的きめ細かい分類のための統一的で強力なメタフレームワークを提案する。
実際にMetaFormerは、視覚と様々なメタ情報の共同学習に対処するための、シンプルで効果的なアプローチを提供する。
実験では、MetaFormerは様々なメタ情報を利用して、きめ細かい認識の性能を向上させることができる。
論文 参考訳(メタデータ) (2022-03-05T14:12:25Z) - Cross-Domain Few-Shot Graph Classification [7.23389716633927]
本稿では,非等価な特徴空間を持つ領域間の数ショットグラフ分類の問題について検討する。
本稿では,3つの連続したグラフビュー,1つのコンテキストと2つのトポロジ的ビューを利用するアテンションベースグラフエンコーダを提案する。
提案するエンコーダは,メトリックベースのメタラーニングフレームワークと組み合わせることで,平均メタテストの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2022-01-20T16:16:30Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。