論文の概要: Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression
- arxiv url: http://arxiv.org/abs/2603.07819v2
- Date: Tue, 17 Mar 2026 09:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.651511
- Title: Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression
- Title(参考訳): Fusion Complexity Inversion:なぜシンプルなクロスビューモジュールがSSMおよびクロスビューアテンショントランスより優れているのか?
- Authors: Mridankan Mandal,
- Abstract要約: The CSIRO Pasture Biomass benchmarkにおいて、視覚基盤モデルの農業レグレッションへの適応を体系的に評価した。
希少な農業データでは、2つの層にゲートされた深さ方向の畳み込み(R2 = 0.903)が、クロスビュー・アテンション・トランスフォーマーより優れる。
バックボーン事前トレーニングスケールは、すべてのアーキテクチャ選択を単調に支配している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate estimation of pasture biomass from agricultural imagery is critical for sustainable livestock management, yet existing methods are limited by the small, imbalanced, and sparsely annotated datasets typical of real world monitoring. In this study, adaptation of vision foundation models to agricultural regression is systematically evaluated on the CSIRO Pasture Biomass benchmark, a 357 image dual view dataset with laboratory validated, component wise ground truth for five biomass targets, through 17 configurations spanning four backbones (EfficientNet-B3 to DINOv3-ViT-L), five cross view fusion mechanisms, and a 4x2 metadata factorial. A counterintuitive principle, termed "fusion complexity inversion", is uncovered: on scarce agricultural data, a two layer gated depthwise convolution (R^2 = 0.903) outperforms cross view attention transformers (0.833), bidirectional SSMs (0.819), and full Mamba (0.793, below the no fusion baseline). Backbone pretraining scale is found to monotonically dominate all architectural choices, with the DINOv2 -> DINOv3 upgrade alone yielding +5.0 R^2 points. Training only metadata (species, state, and NDVI) is shown to create a universal ceiling at R^2 ~ 0.829, collapsing an 8.4 point fusion spread to 0.1 points. Actionable guidelines for sparse agricultural benchmarks are established: backbone quality should be prioritized over fusion complexity, local modules preferred over global alternatives, and features unavailable at inference excluded.
- Abstract(参考訳): 農業画像からの牧草バイオマスの正確な推定は、持続可能な家畜管理にとって重要であるが、既存の手法は、実世界のモニタリングに典型的な、小さく、不均衡で、微妙に注釈付けされたデータセットによって制限されている。
本研究では,5つのバックボーン(EfficientNet-B3からDINOv3-ViT-L),5つのクロスビュー融合機構,および4x2メタデータ因子からなる17の構成を通じて,CSIRO牧畜バイオマスベンチマーク,5つのバイオマスターゲットに対するコンポーネントワイドグラウンド真理を用いた357の画像二重ビューデータセットを用いて,視覚基盤モデルの農業レグレッションへの適応を体系的に評価した。
反直観的原理は「融合複雑性逆転」(fusion complexity inversion)と呼ばれ、希少な農業データでは、2層にゲートされた深度方向の畳み込み(R^2 = 0.903)がクロスビューアテンショントランスフォーマー(0.833)、双方向SSM(0.819)、フルマンバ(0.793、核融合ベースラインより下)より優れている。
バックボーン事前訓練スケールは、DINOv2 > DINOv3 のアップグレードだけで+5.0 R^2 の点で、すべてのアーキテクチャ選択を単調に支配している。
メタデータ(種、状態、NDVI)のみを訓練すると、R^2 ~ 0.829で普遍的な天井が作られ、8.4ポイントの核融合が0.1ポイントまで広がる。
バックボーンの品質は、核融合の複雑さよりも優先されるべきであり、グローバルな代替品よりも好まれるローカルモジュールであり、推論時に利用できない特徴である。
関連論文リスト
- An Efficient Additive Kolmogorov-Arnold Transformer for Point-Level Maize Localization in Unmanned Aerial Vehicle Imagery [9.080987184733456]
高分解能紫外光度計は精密農業の鍵となる技術となっている。
UAV画像における点レベルのトウモロコシの局在は、非常に小さな対画素比のため、依然として困難である。
本稿では,これらの課題に対処するため,AKT (Additive Kolmogorov-Arnold Transformer) を提案する。
論文 参考訳(メタデータ) (2026-01-12T20:16:10Z) - TCLeaf-Net: a transformer-convolution framework with global-local attention for robust in-field lesion-level plant leaf disease detection [13.963787476506292]
Daylily-Leafは1,746枚のRGB画像と7,839個の病変からなる2つの病変レベルのデータセットである。
実地利用に最適化された変圧器・畳み込みハイブリッド検出器TCLeaf-Netを提案する。
論文 参考訳(メタデータ) (2025-12-13T15:03:48Z) - PanFoMa: A Lightweight Foundation Model and Benchmark for Pan-Cancer [54.958921946378304]
トランスフォーマーと状態空間モデルの強みを組み合わせた軽量ハイブリッドニューラルネットワークであるPanFoMaを紹介する。
PanFoMaはフロントエンドのローカルコンテキストエンコーダと共有自己認識層から構成され、複雑で秩序に依存しない遺伝子相互作用をキャプチャする。
また,350万以上の高品質な細胞を含む大規模パンキャンサー単細胞ベンチマークPanFoMaBenchを構築した。
論文 参考訳(メタデータ) (2025-12-02T08:31:31Z) - LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer [14.684808109822386]
LC4-DViTは、生成データ生成と変形対応のVision Transformerを組み合わせたフレームワークである。
テキスト誘導拡散パイプラインは、GPT-4o生成シーン記述を用いて高忠実度トレーニング画像を合成する。
DViTは、DCNv4変形可能な畳み込みバックボーンとVision Transformerエンコーダを結合して、微細な幾何学とグローバルなコンテキストを共同でキャプチャする。
論文 参考訳(メタデータ) (2025-11-27T23:56:35Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Interpretable AI for Time-Series: Multi-Model Heatmap Fusion with Global Attention and NLP-Generated Explanations [1.331812695405053]
本稿では,ResNetが生成するヒートマップと,グローバルに重み付けされた入力サリエンシを備えた再構成された2次元変換器を統合することで,モデル解釈可能性を向上させる新しいフレームワークを提案する。
本手法は、勾配重み付きアクティベーションマップ(ResNet)とトランスフォーマーのアテンションロールアウトを統合可視化にマージし、空間的・時間的アライメントを実現する。
臨床(ECG不整脈検出)および産業データセットに関する実証的評価は,有意な改善を示した。
論文 参考訳(メタデータ) (2025-06-30T20:04:35Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。