論文の概要: WeedRepFormer: Reparameterizable Vision Transformers for Real-Time Waterhemp Segmentation and Gender Classification
- arxiv url: http://arxiv.org/abs/2601.03431v1
- Date: Tue, 06 Jan 2026 21:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.077483
- Title: WeedRepFormer: Reparameterizable Vision Transformers for Real-Time Waterhemp Segmentation and Gender Classification
- Title(参考訳): WeedRepFormer: リアルタイムウォーター麻セグメンテーションとジェンダー分類のための分離可能な視覚変換器
- Authors: Toqi Tahamid Sarker, Taminul Islam, Khaled R. Ahmed, Cristiana Bernardi Rankrape, Kaitlin E. Creager, Karla Gage,
- Abstract要約: WeedRepFormerは、水槽分割と性別分類を同時に行うために設計された軽量ビジョン変換器である。
WeedRepFormer は,3.59M パラメータと3.80 GFLOP のみを用いて,セグメンテーションの92.18% mIoU と性別分類の81.91% の精度を達成した。
- 参考スコア(独自算出の注目度): 2.7708222692419735
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present WeedRepFormer, a lightweight multi-task Vision Transformer designed for simultaneous waterhemp segmentation and gender classification. Existing agricultural models often struggle to balance the fine-grained feature extraction required for biological attribute classification with the efficiency needed for real-time deployment. To address this, WeedRepFormer systematically integrates structural reparameterization across the entire architecture - comprising a Vision Transformer backbone, a Lite R-ASPP decoder, and a novel reparameterizable classification head - to decouple training-time capacity from inference-time latency. We also introduce a comprehensive waterhemp dataset containing 10,264 annotated frames from 23 plants. On this benchmark, WeedRepFormer achieves 92.18% mIoU for segmentation and 81.91% accuracy for gender classification using only 3.59M parameters and 3.80 GFLOPs. At 108.95 FPS, our model outperforms the state-of-the-art iFormer-T by 4.40% in classification accuracy while maintaining competitive segmentation performance and significantly reducing parameter count by 1.9x.
- Abstract(参考訳): WeedRepFormerは軽量なマルチタスク・ビジョン・トランスフォーマーで,水槽のセグメンテーションと性別分類を同時に行うように設計されている。
既存の農業モデルは、生物学的属性分類に必要なきめ細かい特徴抽出と、リアルタイム展開に必要な効率のバランスをとるのに苦労することが多い。
これに対処するため、WeedRepFormerは、Vision Transformerのバックボーン、Lite R-ASPPデコーダ、新しい再パラメータ化可能な分類ヘッドを含む、アーキテクチャ全体の構造的再パラメータ化を体系的に統合し、推論時間レイテンシからトレーニング時間容量を分離する。
また,23の植物から10,264個の注釈付きフレームを含む総合的な水たまりデータセットも導入した。
このベンチマークでは、WeedRepFormerはセグメント化に92.18% mIoU、性別分類に81.91%の精度で3.59Mパラメータと3.80 GFLOPしか使用していない。
108.95 FPSでは、競合セグメンテーション性能を維持しながら、最先端のiFormer-Tを4.40%向上させ、パラメータ数を1.9倍削減する。
関連論文リスト
- WeedSense: Multi-Task Learning for Weed Segmentation, Height Estimation, and Growth Stage Classification [0.0]
WeedSenseは包括的雑草分析のための新しいマルチタスク学習アーキテクチャである。
我々は,11週間の生育周期で16種の雑草を採集したデータセットを,画素レベルのアノテーション,高さ測定,時間ラベルを用いて提示した。
セグメント化では89.78%,高さ推定では1.67cm MAE,成長段階分類では99.99%,リアルタイム推定では160FPSの精度でmIoUを実現した。
論文 参考訳(メタデータ) (2025-08-20T07:21:52Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。