論文の概要: Transfer Learning with Self-Supervised Vision Transformers for Snake Identification
- arxiv url: http://arxiv.org/abs/2407.06178v1
- Date: Mon, 8 Jul 2024 17:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.024472
- Title: Transfer Learning with Self-Supervised Vision Transformers for Snake Identification
- Title(参考訳): スネーク識別のための自己監督型視覚変換器を用いた伝達学習
- Authors: Anthony Miyaguchi, Murilo Gustineli, Austin Fischer, Ryan Lundqvist,
- Abstract要約: 我々は,SnakeCLEF 2024コンペティションに対して,画像からヘビ種を予測するアプローチを提案する。
特徴抽出にはMetaのDINOv2ビジョントランスフォーマーモデルを用いて、182,261枚の画像のデータセットにおいて、種の高い可変性と視覚的類似性に取り組む。
39.69のスコアを得たにもかかわらず、DINOv2をヘビの識別に埋め込むことが保証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our approach for the SnakeCLEF 2024 competition to predict snake species from images. We explore and use Meta's DINOv2 vision transformer model for feature extraction to tackle species' high variability and visual similarity in a dataset of 182,261 images. We perform exploratory analysis on embeddings to understand their structure, and train a linear classifier on the embeddings to predict species. Despite achieving a score of 39.69, our results show promise for DINOv2 embeddings in snake identification. All code for this project is available at https://github.com/dsgt-kaggle-clef/snakeclef-2024.
- Abstract(参考訳): 我々は,SnakeCLEF 2024コンペティションに対して,画像からヘビ種を予測するアプローチを提案する。
特徴抽出のためのMetaのDINOv2ビジョントランスフォーマーモデルを探索し,182,261画像のデータセットにおいて,種多様性と視覚的類似性に対処する。
本研究は, 埋込みに関する探索的解析を行い, その構造を理解するとともに, 埋込み上の線形分類器を訓練し, 種を予測する。
39.69のスコアを得たにもかかわらず、DINOv2をヘビの識別に埋め込むことが保証された。
このプロジェクトのコードは、https://github.com/dsgt-kaggle-clef/snakeclef-2024で公開されている。
関連論文リスト
- Multi-Label Plant Species Classification with Self-Supervised Vision Transformers [0.0]
植物CLEF 2024 コンペティションのための自己教師型ビジョントランスフォーマ (DINOv2) を用いた移動学習手法を提案する。
大規模データセットの計算課題に対処するために、分散データ処理にSparkを使用します。
本研究は,複数ラベル画像分類タスクにおいて,転送学習と高度なデータ処理技術を組み合わせることの有効性を示す。
論文 参考訳(メタデータ) (2024-07-08T18:07:33Z) - CNN Based Flank Predictor for Quadruped Animal Species [1.502956022927019]
我々は、画像中の4つの哺乳類の視覚的な側面を予測する側面予測器を訓練する。
発達したモデルは、未知の環境と未知の環境において、異なる未知の四つ組種の異なるシナリオで評価された。
EfficientNetV2のバックボーンで訓練された最良のモデルは、複雑な生息地において未知の種であるlynxに対して88.70%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-19T14:24:26Z) - Poisson Variational Autoencoder [0.0]
変分オートエンコーダ(VAE)はベイズ推定を用いて感覚入力を解釈する。
本稿では,予測符号化の原理と,インプットを離散スパイク数にエンコードするVAEを組み合わせた新しいアーキテクチャを開発する。
我々の研究は、脳のような感覚処理を研究するための解釈可能な計算フレームワークを提供する。
論文 参考訳(メタデータ) (2024-05-23T12:02:54Z) - Watch out Venomous Snake Species: A Solution to SnakeCLEF2023 [27.7177597421459]
SnakeCLEF2023コンペティションは、ヘビ種識別のための高度なアルゴリズムの開発を目的としている。
本稿では,画像とメタデータの両方を活用する手法を提案する。
本手法は,F1と他の指標を組み合わせて,F1の91.31%のスコアを得る。
論文 参考訳(メタデータ) (2023-07-19T04:59:58Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Solutions for Fine-grained and Long-tailed Snake Species Recognition in
SnakeCLEF 2022 [30.8004334312293]
我々はSnakeCLEF 2022でヘビの種を認識できる方法を紹介した。
いくつかの異なるモデルのアンサンブルにより、3位にランクインしたプライベートスコア82.65%が最終リーダーボードで達成される。
論文 参考訳(メタデータ) (2022-07-04T05:55:58Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。