論文の概要: Leveraging Habitat Information for Fine-grained Bird Identification
- arxiv url: http://arxiv.org/abs/2312.14999v1
- Date: Fri, 22 Dec 2023 16:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:25:10.902795
- Title: Leveraging Habitat Information for Fine-grained Bird Identification
- Title(参考訳): きめ細かい鳥の識別のためのハビタット情報の活用
- Authors: Tin Nguyen, Anh Nguyen
- Abstract要約: 我々は鳥類学者によって鳥類を識別する4つの主要な方法の1つである生息地情報を現代の鳥類分類器に組み込むことを最初に検討した。
我々は、下流の鳥のデータセットに基づいて訓練されたCNNとViTと、オリジナルのマルチモーダルCLIPの2つの主要なモデルタイプに焦点を当てる。
CNNとViTを生息地データでトレーニングすると、NABirdsとCUB-200で最大0.83点、+0.23点が改善される。
- 参考スコア(独自算出の注目度): 4.392299539811761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional bird classifiers mostly rely on the visual characteristics of
birds. Some prior works even train classifiers to be invariant to the
background, completely discarding the living environment of birds. Instead, we
are the first to explore integrating habitat information, one of the four major
cues for identifying birds by ornithologists, into modern bird classifiers. We
focus on two leading model types: (1) CNNs and ViTs trained on the downstream
bird datasets; and (2) original, multi-modal CLIP. Training CNNs and ViTs with
habitat-augmented data results in an improvement of up to +0.83 and +0.23
points on NABirds and CUB-200, respectively. Similarly, adding habitat
descriptors to the prompts for CLIP yields a substantial accuracy boost of up
to +0.99 and +1.1 points on NABirds and CUB-200, respectively. We find
consistent accuracy improvement after integrating habitat features into the
image augmentation process and into the textual descriptors of vision-language
CLIP classifiers. Code is available at:
https://anonymous.4open.science/r/reasoning-8B7E/.
- Abstract(参考訳): 従来の鳥分類器は、主に鳥の視覚特性に依存している。
以前の作品の中には、背景に不変な分類器を訓練し、鳥類の生活環境を完全に破棄するものもある。
その代わり、私たちは鳥類学者によって鳥類を識別する4つの主要な方法の1つである生息地情報を現代の鳥類分類器に統合する研究を初めて行った。
1)下流の鳥のデータセットに基づいて訓練されたCNNとViT,(2)オリジナルでマルチモーダルなCLIPである。
CNNとViTを生息地データでトレーニングすると、NABirdsとCUB-200で最大0.83点、+0.23点が改善される。
同様に、CLIPのプロンプトに生息地記述子を追加すると、NABirdsとCUB-200で最大0.99と+1.1ポイントの精度が向上する。
画像拡張プロセスと視覚言語CLIP分類器のテキスト記述子に環境特徴を統合することにより,一貫した精度の向上が得られた。
コードは、https://anonymous.4open.science/r/reasoning-8B7E/で入手できる。
関連論文リスト
- AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping [22.30038765017189]
本稿では,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータ認識型自己教師型学習(SSL)フレームワークを提案する。
当社のフレームワークは,コントラスト学習(CL)とMasked Image Modeling(MIM)の2つのSSL戦略を統合するとともに,鳥の地上レベルの画像にメタデータを付加した埋め込み空間を充実させる。
本研究では,小粒度の視覚的分類(FGVC)とクロスモーダル検索(クロスモーダル検索)という2つの下流課題に基づいて,鳥の細粒度・地理的に条件付けられた特徴を学習できることを実証した。
論文 参考訳(メタデータ) (2023-10-29T22:08:00Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Recognition of Unseen Bird Species by Learning from Field Guides [23.137536032163855]
我々は、野のガイドを利用して鳥の種認識を学習し、特に目に見えない種をゼロショットで認識する。
本研究では,(1)標準のゼロショット学習方式に入力可能な画像のコントラスト符号化,(2)イラストも画像であるという事実を活用する新しい手法について検討する。
この結果から,広範囲の種で容易に利用できるフィールドガイドからのイラストが,ゼロショット学習におけるサイド情報の競合源であることが示唆された。
論文 参考訳(メタデータ) (2022-06-03T09:13:46Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Your "Flamingo" is My "Bird": Fine-Grained, or Not [60.25769809922673]
我々は,異なるレベルの専門知識の下で,様々なきめ細かい定義を調整する方法を検討する。
われわれはまず総合的な人間研究を行い、ほとんどの参加者が多粒度ラベルを好むことを確認した。
粗いレベルのラベル予測は、きめ細かい特徴学習をさらに高める。
論文 参考訳(メタデータ) (2020-11-18T02:24:54Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - Feathers dataset for Fine-Grained Visual Categorization [0.0]
FeatherV1は、機械学習のための最初の一般公開された鳥の羽毛データセットである。
これは、きめ細かい視覚認識領域における新しいタスクへの関心を高めることができる。
論文 参考訳(メタデータ) (2020-04-18T12:40:43Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。