論文の概要: NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Models with Searchable Adaptation
- arxiv url: http://arxiv.org/abs/2512.03499v1
- Date: Wed, 03 Dec 2025 06:47:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:20.109915
- Title: NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Models with Searchable Adaptation
- Title(参考訳): NAS-LoRA:探索可能な適応型ビジュアルファンデーションモデルのためのパラメータ効率の良いファインチューニング
- Authors: Renqi Chen, Haoyang Su, Shixiang Tang,
- Abstract要約: 新たなNAS-LoRAを提案する。
事前学習間のセマンティックギャップを橋渡しするニューラル・エフェクト・ファインチューニング(PEFT)法
SAMおよび特殊ドメイン。
- 参考スコア(独自算出の注目度): 16.65680361628606
- License:
- Abstract: The Segment Anything Model (SAM) has emerged as a powerful visual foundation model for image segmentation. However, adapting SAM to specific downstream tasks, such as medical and agricultural imaging, remains a significant challenge. To address this, Low-Rank Adaptation (LoRA) and its variants have been widely employed to enhancing SAM's adaptation performance on diverse domains. Despite advancements, a critical question arises: can we integrate inductive bias into the model? This is particularly relevant since the Transformer encoder in SAM inherently lacks spatial priors within image patches, potentially hindering the acquisition of high-level semantic information. In this paper, we propose NAS-LoRA, a new Parameter-Efficient Fine-Tuning (PEFT) method designed to bridge the semantic gap between pre-trained SAM and specialized domains. Specifically, NAS-LoRA incorporates a lightweight Neural Architecture Search (NAS) block between the encoder and decoder components of LoRA to dynamically optimize the prior knowledge integrated into weight updates. Furthermore, we propose a stage-wise optimization strategy to help the ViT encoder balance weight updates and architectural adjustments, facilitating the gradual learning of high-level semantic information. Various Experiments demonstrate our NAS-LoRA improves existing PEFT methods, while reducing training cost by 24.14% without increasing inference cost, highlighting the potential of NAS in enhancing PEFT for visual foundation models.
- Abstract(参考訳): Segment Anything Model (SAM) は画像セグメンテーションのための強力なビジュアル基盤モデルとして登場した。
しかし、医療や農業などの下流の特定の課題にSAMを適応させることは、依然として大きな課題である。
これを解決するため、ローランド適応(LoRA)とその変種はSAMの様々な領域への適応性能を高めるために広く採用されている。
モデルに帰納バイアスを組み込むことができるのか?
これはSAMのTransformerエンコーダが本質的にイメージパッチ内の空間的先行性を欠いているため、高レベルのセマンティック情報の取得を妨げる可能性があるため、特に関係がある。
本稿では,事前学習されたSAMと特殊ドメイン間のセマンティックギャップを埋める新しいパラメータ効率細調整法であるNAS-LoRAを提案する。
具体的には、NAS-LoRAは軽量なニューラルネットワークサーチ(NAS)ブロックをLoRAのエンコーダとデコーダコンポーネントの間に組み込んで、ウェイトアップデートに統合された以前の知識を動的に最適化する。
さらに,ViTエンコーダの重み付けとアーキテクチャ調整のバランスをとるための段階的最適化手法を提案し,高いレベルの意味情報の段階的学習を容易にする。
各種実験により,NAS-LoRAは既存のPEFT法を改良し,推論コストを増大させることなくトレーニングコストを24.14%削減した。
関連論文リスト
- LangVision-LoRA-NAS: Neural Architecture Search for Variable LoRA Rank in Vision Language Models [0.0]
視覚言語モデル(VLM)は、視覚とテキストのモダリティを統合し、マルチモーダルな理解と生成を可能にする。
LoRA (Low-Rank Adaptation) は、事前訓練されたモデルを新しいタスクに適応するための効率的な微調整手法である。
本稿では、ニューラルネットワーク検索(NAS)とLoRAを統合し、可変ランク適応のためのVLMを最適化する新しいフレームワークであるtextitLangVision-LoRA-NASを紹介する。
論文 参考訳(メタデータ) (2025-08-17T22:19:02Z) - SEAL: Searching Expandable Architectures for Incremental Learning [2.8928489670253277]
インクリメンタルラーニング(Incremental Learning)は、モデルがタスクのシーケンシャルストリームから学習する機械学習パラダイムである。
インクリメンタルラーニングに対するNASベースのアプローチは、しばしばすべてのタスクでモデルを拡張することに依存し、リソース制約のある環境では実用的ではない。
データインクリメンタル学習に適したNASベースのフレームワークであるSEALを紹介する。
SEALはキャパシティ推定基準に基づいて、必要なときにのみモデルを拡張することで、モデル構造を動的に適応する。
論文 参考訳(メタデータ) (2025-05-15T16:14:18Z) - Regularizing Differentiable Architecture Search with Smooth Activation [10.658697052636272]
微分可能なアーキテクチャサーチ(DARTS)は、効率的なニューラルネットワークサーチ(NAS)手法であるが、堅牢性、一般化、不一致の問題に悩まされている。
Smooth Activation DARTS (SA-DARTS) を提案する。
超高分解能タスクにおける情報多蒸留ネットワークなどのパラメータが少ないSOTAモデルの性能向上にSA-DARTSが有効であることを示す。
論文 参考訳(メタデータ) (2025-04-22T22:49:38Z) - Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs [76.40876036912537]
大規模言語モデル(LLM)は、微調整を必要とせず、強力な少数ショット適応性を示す。
現在のVisual Foundation Models (VFM) は十分なチューニングデータを持つ明示的な微調整を必要とする。
そこで我々は, メタ学習目的の多様なLoRAからメタLoRAを蒸留するフレームワークであるLoRA Recycleを提案する。
論文 参考訳(メタデータ) (2024-12-03T07:25:30Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Towards Neural Scaling Laws for Time Series Foundation Models [63.5211738245487]
我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-16T08:23:39Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。