論文の概要: Parameter-Efficient Fine-Tuning of Vision Foundation Model for Forest Floor Segmentation from UAV Imagery
- arxiv url: http://arxiv.org/abs/2505.08932v1
- Date: Tue, 13 May 2025 19:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.28782
- Title: Parameter-Efficient Fine-Tuning of Vision Foundation Model for Forest Floor Segmentation from UAV Imagery
- Title(参考訳): UAV画像からの森林床セグメンテーションのための視覚基礎モデルのパラメータ効率の良い微調整
- Authors: Mohammad Wasil, Ahmad Drak, Brennan Penfold, Ludovico Scarton, Maximilian Johenneken, Alexander Asteroth, Sebastian Houben,
- Abstract要約: 我々は視覚基盤モデルを用いて,樹木の切り株,植生,樹木の破片などの林床オブジェクトを分割する。
我々はパラメータ効率の細かい微調整(PEFT)を用いて、追加のモデルパラメータの小さなサブセットを微調整する。
その結果,アダプタを用いたPEFT法は,結合よりも高い平均交叉を実現していることがわかった。
- 参考スコア(独自算出の注目度): 36.962599292942755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unmanned Aerial Vehicles (UAVs) are increasingly used for reforestation and forest monitoring, including seed dispersal in hard-to-reach terrains. However, a detailed understanding of the forest floor remains a challenge due to high natural variability, quickly changing environmental parameters, and ambiguous annotations due to unclear definitions. To address this issue, we adapt the Segment Anything Model (SAM), a vision foundation model with strong generalization capabilities, to segment forest floor objects such as tree stumps, vegetation, and woody debris. To this end, we employ parameter-efficient fine-tuning (PEFT) to fine-tune a small subset of additional model parameters while keeping the original weights fixed. We adjust SAM's mask decoder to generate masks corresponding to our dataset categories, allowing for automatic segmentation without manual prompting. Our results show that the adapter-based PEFT method achieves the highest mean intersection over union (mIoU), while Low-rank Adaptation (LoRA), with fewer parameters, offers a lightweight alternative for resource-constrained UAV platforms.
- Abstract(参考訳): 無人航空機 (UAV) は森林再植林や森林モニタリングにますます使われており、種子の散布は困難な地形で行われている。
しかし、森林床の詳細な理解は、高い自然変動性、環境パラメータの急激な変化、不明瞭な定義による曖昧なアノテーションにより、依然として困難である。
この問題に対処するため,木切り株や植生,樹木の破片などの林床オブジェクトを分割するために,強力な一般化能力を持つ視覚基盤モデルであるセグメンション・アニーシング・モデル(SAM)を適用した。
この目的のために、パラメータ効率の微調整(PEFT)を用いて、元の重みを固定しながら、追加のモデルパラメータの小さなサブセットを微調整する。
我々はSAMのマスクデコーダを調整し、データセットカテゴリに対応するマスクを生成する。
提案手法は,より少ないパラメータを持つ低ランク適応 (LoRA) が資源制約付きUAVプラットフォームに対する軽量な代替手段であることを示す。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy [5.359060261460183]
言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
理論的には、LoRAとFLoRAで使用される低ランク適応は、アダプタパラメータにランダムノイズを注入する。
低ランク適応の力学は、アダプタの微分プライベート微調整の力学に近いことを示す。
論文 参考訳(メタデータ) (2024-09-26T04:56:49Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。