論文の概要: An Efficient Additive Kolmogorov-Arnold Transformer for Point-Level Maize Localization in Unmanned Aerial Vehicle Imagery
- arxiv url: http://arxiv.org/abs/2601.07975v1
- Date: Mon, 12 Jan 2026 20:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.933969
- Title: An Efficient Additive Kolmogorov-Arnold Transformer for Point-Level Maize Localization in Unmanned Aerial Vehicle Imagery
- Title(参考訳): 無人航空機画像における点レベル小型化のための高能率コルモゴロフ・アルノルド変圧器
- Authors: Fei Li, Lang Qiao, Jiahao Fan, Yijia Xu, Shawn M. Kaeppler, Zhou Zhang,
- Abstract要約: 高分解能紫外光度計は精密農業の鍵となる技術となっている。
UAV画像における点レベルのトウモロコシの局在は、非常に小さな対画素比のため、依然として困難である。
本稿では,これらの課題に対処するため,AKT (Additive Kolmogorov-Arnold Transformer) を提案する。
- 参考スコア(独自算出の注目度): 9.080987184733456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-resolution UAV photogrammetry has become a key technology for precision agriculture, enabling centimeter-level crop monitoring and point-level plant localization. However, point-level maize localization in UAV imagery remains challenging due to (1) extremely small object-to-pixel ratios, typically less than 0.1%, (2) prohibitive computational costs of quadratic attention on ultra-high-resolution images larger than 3000 x 4000 pixels, and (3) agricultural scene-specific complexities such as sparse object distribution and environmental variability that are poorly handled by general-purpose vision models. To address these challenges, we propose the Additive Kolmogorov-Arnold Transformer (AKT), which replaces conventional multilayer perceptrons with Pade Kolmogorov-Arnold Network (PKAN) modules to enhance functional expressivity for small-object feature extraction, and introduces PKAN Additive Attention (PAA) to model multiscale spatial dependencies with reduced computational complexity. In addition, we present the Point-based Maize Localization (PML) dataset, consisting of 1,928 high-resolution UAV images with approximately 501,000 point annotations collected under real field conditions. Extensive experiments show that AKT achieves an average F1-score of 62.8%, outperforming state-of-the-art methods by 4.2%, while reducing FLOPs by 12.6% and improving inference throughput by 20.7%. For downstream tasks, AKT attains a mean absolute error of 7.1 in stand counting and a root mean square error of 1.95-1.97 cm in interplant spacing estimation. These results demonstrate that integrating Kolmogorov-Arnold representation theory with efficient attention mechanisms offers an effective framework for high-resolution agricultural remote sensing.
- Abstract(参考訳): 高分解能紫外光度計は精密農業の鍵となる技術となり、センチメートル単位の作物モニタリングと点レベルの植物局在化を可能にしている。
しかし,UAV画像における点レベルのトウモロコシの局所化は,(1)オブジェクト・ピクセル比が0.1%未満で,(2)超高解像度画像に対する2次的注意の禁止的計算コストが3000 x 4000ピクセルより大きいこと,(3)スパース物体分布や環境変動などの農業シーン特有の複雑度が,汎用視覚モデルでは扱いにくいため,依然として困難である。
これらの課題に対処するために,従来のマルチ層パーセプトロンをPade Kolmogorov-Arnold Network (PKAN) モジュールに置き換えたAdditive Kolmogorov-Arnold Transformer (AKT)を提案する。
さらに,1,928個の高分解能UAV画像と約501,000個の点アノテーションからなるPMLデータセットを提案する。
大規模な実験により、AKTは平均F1スコア62.8%を達成し、最先端の手法を4.2%上回り、FLOPを12.6%減らし、推論スループットを20.7%改善した。
下流タスクでは、AKTはスタンドカウントの7.1の平均絶対誤差と、プラント間間隔推定の1.95-1.97 cmの根平均二乗誤差を達成している。
これらの結果は、コルモゴロフ・アルノルド表現理論と効率的な注意機構を統合することで、高分解能農業リモートセンシングに有効な枠組みを提供することを示した。
関連論文リスト
- A Domain-Adapted Lightweight Ensemble for Resource-Efficient Few-Shot Plant Disease Classification [0.0]
ドメイン適応型MobileNetV2モデルとMobileNetV3モデルを組み合わせた数ショットの学習手法を提案する。
分類タスクには、注意機構を付加したBi-LSTM分類器を通す。
1発から15発のパフォーマンスを継続的に改善し、15発で98.23+-0.33%に達した。
また、以前のSOTAの精度も96.4%向上し、15ショットの学習で99.72%を記録した。
論文 参考訳(メタデータ) (2025-12-15T15:17:29Z) - Evaluating the Efficacy of Sentinel-2 versus Aerial Imagery in Serrated Tussock Classification [1.7975159705384043]
セレーションタソック(Serrated tussock、textitNassella trichotoma)は、原生草原を破壊し、牧草生産性を低下させ、土地管理コストを増大させる非常に競争の激しい侵入性草種である。
現在の地上調査とその後の経営実践は小規模では有効であるが, ランドスケープ・スケールのモニタリングには有効ではない。
衛星ベースのリモートセンシングは、よりコスト効率が高くスケーラブルな代替手段を提供するが、空間解像度は低いことが多い。
論文 参考訳(メタデータ) (2025-12-12T04:10:44Z) - YOLOv11-Litchi: Efficient Litchi Fruit Detection based on UAV-Captured Agricultural Imagery in Complex Orchard Environments [6.862722449907841]
本稿では,UAVを用いたリッチ検出のための軽量で堅牢な検出モデルであるYOLOv11-Litchiを紹介する。
YOLOv11-Litchiのパラメータサイズは6.35MBで、YOLOv11ベースラインよりも32.5%小さい。
このモデルは57.2FPSのフレームレートを実現し、リアルタイム検出要求を満たす。
論文 参考訳(メタデータ) (2025-10-11T09:44:00Z) - An Improved YOLOv8 Approach for Small Target Detection of Rice Spikelet Flowering in Field Environments [1.0288898584996287]
そこで本研究では,改良型YOLOv8オブジェクト検出モデルに基づく水稲の穂花認識手法を提案する。
BiFPNは、オリジナルのPANet構造を置き換えることで、機能融合を強化し、マルチスケールの機能利用を改善する。
フィールド条件下でのコメ開花のデータセットが公開されていないため、高解像度のRGBカメラとデータ拡張技術が用いられている。
論文 参考訳(メタデータ) (2025-07-28T04:01:29Z) - Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification [9.706130801069143]
ランドカバー分類は、サブメーターリモート画像上でのランドカバータイプを特定する。
既存の手法のほとんどは1mの画像にフォーカスし、大規模なアノテーションに大きく依存している。
本稿では,大規模トレーニングデータへの依存度を低減するため,土地被覆分類フレームワークであるボルチモア・アトラスを紹介する。
論文 参考訳(メタデータ) (2025-06-18T15:41:29Z) - Data Augmentation and Resolution Enhancement using GANs and Diffusion Models for Tree Segmentation [49.13393683126712]
都市森林は、環境の質を高め、都市における生物多様性を支援する上で重要な役割を担っている。
複雑な地形と異なる衛星センサーやUAV飛行高度による画像解像度の変化により、正確に木を検知することは困難である。
低解像度空中画像の品質を高めるため,GANと拡散モデルとドメイン適応を統合した新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T03:57:10Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Estimating Crop Primary Productivity with Sentinel-2 and Landsat 8 using
Machine Learning Methods Trained with Radiative Transfer Simulations [58.17039841385472]
我々は,機械モデリングと衛星データ利用の並列化を活用し,作物生産性の高度モニタリングを行う。
本モデルでは, 地域情報を使用しなくても, 各種C3作物の種類, 環境条件の総合的生産性を推定することに成功した。
これは、現在の地球観測クラウドコンピューティングプラットフォームの助けを借りて、新しい衛星センサーから作物の生産性をグローバルにマップする可能性を強調しています。
論文 参考訳(メタデータ) (2020-12-07T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。