論文の概要: Tile-Based ViT Inference with Visual-Cluster Priors for Zero-Shot Multi-Species Plant Identification
- arxiv url: http://arxiv.org/abs/2507.06093v1
- Date: Tue, 08 Jul 2025 15:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.268939
- Title: Tile-Based ViT Inference with Visual-Cluster Priors for Zero-Shot Multi-Species Plant Identification
- Title(参考訳): ゼロショット多種植物同定のためのビジュアルクラスタプリミティブを用いたタイルベースVT推論
- Authors: Murilo Gustineli, Anthony Miyaguchi, Adrian Cheung, Divyansh Khattak,
- Abstract要約: DS@GTの植物4乗画像における多種植物同定におけるPlantCLEF 2025課題に対する第2位ソリューションについて述べる。
i) パッチレベルの推論のための微調整されたビジョントランスフォーマーViTD2PC24All,(ii) パッチサイズをネットワークの518x518受信フィールドに合わせる4x4タイリング戦略,(iii) PaCMAP + K-Means視覚クラスタリングと位置情報フィルタリングによるドメイン優先適応を組み合わせる。
- 参考スコア(独自算出の注目度): 0.1181206257787103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe DS@GT's second-place solution to the PlantCLEF 2025 challenge on multi-species plant identification in vegetation quadrat images. Our pipeline combines (i) a fine-tuned Vision Transformer ViTD2PC24All for patch-level inference, (ii) a 4x4 tiling strategy that aligns patch size with the network's 518x518 receptive field, and (iii) domain-prior adaptation through PaCMAP + K-Means visual clustering and geolocation filtering. Tile predictions are aggregated by majority vote and re-weighted with cluster-specific Bayesian priors, yielding a macro-averaged F1 of 0.348 (private leaderboard) while requiring no additional training. All code, configuration files, and reproducibility scripts are publicly available at https://github.com/dsgt-arc/plantclef-2025.
- Abstract(参考訳): DS@GTの植物4乗画像における多種植物同定におけるPlantCLEF 2025課題に対する第2位ソリューションについて述べる。
私たちのパイプラインは結合します
(i)パッチレベルの推論のための微調整されたビジョントランスViTD2PC24All
(ii)ネットワークの518x518受信フィールドにパッチサイズを合わせる4x4タイリング戦略
3)PaCMAP+K-Meansビジュアルクラスタリングと位置情報フィルタリングによるドメイン優先適応。
タイル予測は多数決によって集約され、クラスタ固有のベイズ事前の重み付けが行われ、マクロ平均F1は0.348(民間のリーダーボード)となり、追加のトレーニングは不要である。
すべてのコード、設定ファイル、再現性スクリプトはhttps://github.com/dsgt-arc/plantclef-2025で公開されている。
関連論文リスト
- Frequency-Adaptive Discrete Cosine-ViT-ResNet Architecture for Sparse-Data Vision [7.0134322436635275]
最適な低域・中域・高域境界を学習する適応周波数領域選択機構を提案する。
自作の50クラスの野生生物データセットでは、このアプローチは従来のCNNや固定バンドDCTパイプラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-28T17:39:58Z) - The Missing Point in Vision Transformers for Universal Image Segmentation [17.571552686063335]
マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。
COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
論文 参考訳(メタデータ) (2025-05-26T10:29:13Z) - Tile Compression and Embeddings for Multi-Label Classification in GeoLifeCLEF 2024 [0.0]
DS@GTチームとのGeoLifeCLEF 2024競合による多ラベル分類課題を解決する。
提案手法では、離散コサイン変換(DCT)による周波数領域係数を用いて、生の入力データを圧縮・プリコンプリートする。
我々のベストコンペティションモデルは、リーダーボードスコア0.152、ベストポストコンペティションスコア0.161の位置情報機能を利用した。
論文 参考訳(メタデータ) (2024-07-08T18:44:03Z) - Multi-Label Plant Species Classification with Self-Supervised Vision Transformers [0.0]
植物CLEF 2024 コンペティションのための自己教師型ビジョントランスフォーマ (DINOv2) を用いた移動学習手法を提案する。
大規模データセットの計算課題に対処するために、分散データ処理にSparkを使用します。
本研究は,複数ラベル画像分類タスクにおいて,転送学習と高度なデータ処理技術を組み合わせることの有効性を示す。
論文 参考訳(メタデータ) (2024-07-08T18:07:33Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - A Deep Learning Approach Based on Graphs to Detect Plantation Lines [16.76043873454695]
本稿では,UAVを用いたRGB画像における植林線検出のためのグラフに基づく深層学習手法を提案する。
提案手法は最先端のディープラーニング手法と比較した。
精度、リコール、F1スコアはそれぞれ98.7%、91.9%、95.1%だった。
論文 参考訳(メタデータ) (2021-02-05T14:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。