論文の概要: Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.10457v1
- Date: Thu, 14 Aug 2025 08:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.239996
- Title: Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers
- Title(参考訳): メタデータ強化マルチヘッドビジョントランスを用いたマルチラベル植物種別予測
- Authors: Hanna Herasimchyk, Robin Labryga, Tomislav Prusina,
- Abstract要約: 植生プロット画像におけるマルチラベル植物種予測のためのマルチヘッド・ビジョン・トランスフォーマー手法を提案する。
このタスクでは、単一種の植物イメージのトレーニングモデルと、多種の4つのイメージのテストが含まれており、ドメインシフトが劇的に変化する。
本手法は, 種, 属, および家族予測のための複数の分類先頭を持つ, 事前訓練されたDINOv2 Vision Transformer Base (ViT-B/14) のバックボーンを利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a multi-head vision transformer approach for multi-label plant species prediction in vegetation plot images, addressing the PlantCLEF 2025 challenge. The task involves training models on single-species plant images while testing on multi-species quadrat images, creating a drastic domain shift. Our methodology leverages a pre-trained DINOv2 Vision Transformer Base (ViT-B/14) backbone with multiple classification heads for species, genus, and family prediction, utilizing taxonomic hierarchies. Key contributions include multi-scale tiling to capture plants at different scales, dynamic threshold optimization based on mean prediction length, and ensemble strategies through bagging and Hydra model architectures. The approach incorporates various inference techniques including image cropping to remove non-plant artifacts, top-n filtering for prediction constraints, and logit thresholding strategies. Experiments were conducted on approximately 1.4 million training images covering 7,806 plant species. Results demonstrate strong performance, making our submission 3rd best on the private leaderboard. Our code is available at https://github.com/geranium12/plant-clef-2025/tree/v1.0.0.
- Abstract(参考訳): 植生プロット画像におけるマルチラベル植物種予測のためのマルチヘッド・ビジョン・トランスフォーマー手法を提案し,植物CLEF 2025の課題に対処する。
このタスクでは、単一種の植物イメージのトレーニングモデルと、多種の4つのイメージのテストが含まれており、ドメインシフトが劇的に変化する。
我々の手法は、分類学的階層を利用して、種、属、および家族予測のための複数の分類先頭を持つ事前訓練されたDINOv2 Vision Transformer Base (ViT-B/14) のバックボーンを活用する。
主な貢献は、異なるスケールで植物を捕獲するマルチスケールタイリング、平均予測長に基づく動的しきい値最適化、バッグングとハイドラモデルアーキテクチャによるアンサンブル戦略である。
このアプローチには、イメージトリミングによる非プラントアーティファクトの除去、予測制約のためのトップnフィルタリング、ロジットしきい値設定戦略など、さまざまな推論手法が組み込まれている。
7,806種の植物を対象とする約14万枚の訓練画像を用いて実験を行った。
結果は高いパフォーマンスを示しており、私たちの応募はプライベートなリーダーボードで3番目に優れています。
私たちのコードはhttps://github.com/geranium12/plant-clef-2025/tree/v1.0.0で利用可能です。
関連論文リスト
- Transfer Learning and Mixup for Fine-Grained Few-Shot Fungi Classification [0.0]
本稿では,FungiCLEF 2025コンペティションの取り組みについて述べる。
FungiTastic Few-Shotデータセットを使用した、数ショットのきめ細かい視覚分類に焦点を当てている。
論文 参考訳(メタデータ) (2025-07-11T01:21:21Z) - Tighnari: Multi-modal Plant Species Prediction Based on Hierarchical Cross-Attention Using Graph-Based and Vision Backbone-Extracted Features [1.5495593104596397]
ヨーロッパにおける植物調査4,716件の結果を予測するモデルを構築した。
本研究では,Swin-Transformer Blockのバックボーンに基づくネットワークを構築し,時間的キューブの特徴を抽出する。
次に,複数のモダリティから特徴を融合できる階層的クロスアテンション機構を設計する。
論文 参考訳(メタデータ) (2025-01-05T20:30:07Z) - Multi-Label Plant Species Classification with Self-Supervised Vision Transformers [0.0]
植物CLEF 2024 コンペティションのための自己教師型ビジョントランスフォーマ (DINOv2) を用いた移動学習手法を提案する。
大規模データセットの計算課題に対処するために、分散データ処理にSparkを使用します。
本研究は,複数ラベル画像分類タスクにおいて,転送学習と高度なデータ処理技術を組み合わせることの有効性を示す。
論文 参考訳(メタデータ) (2024-07-08T18:07:33Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Conviformers: Convolutionally guided Vision Transformer [5.964436882344729]
本稿では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素を詳細に分析し,解説する。
Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリや計算コストを犠牲にすることなく高解像度画像を処理できる。
単純だが効果的なアプローチで、Herbarium 202xとiNaturalist 2019データセットでSoTAを達成しました。
論文 参考訳(メタデータ) (2022-08-17T13:09:24Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。