論文の概要: CAD: Memory Efficient Convolutional Adapter for Segment Anything
- arxiv url: http://arxiv.org/abs/2409.15889v1
- Date: Tue, 24 Sep 2024 09:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:21:18.646332
- Title: CAD: Memory Efficient Convolutional Adapter for Segment Anything
- Title(参考訳): CAD: セグメンテーションのためのメモリ効率の良い畳み込みアダプタ
- Authors: Joohyeok Kim, Joonhyeon Song, Seohwan Yun, Seongho Yoon, Sangmin Lee,
- Abstract要約: イメージセグメンテーションの基礎モデルであるSAM(Seegment Anything)は,様々な分野で積極的に研究されている。
アダプタベースの微調整アプローチではパラメータ効率と大幅なパフォーマンス向上が報告されている。
本稿では,メモリ効率の高い並列畳み込みアダプタアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.760646312664378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Foundation model for image segmentation, Segment Anything (SAM), has been actively researched in various fields since its proposal. Various researches have been proposed to adapt SAM to specific domains, with one notable approach involving the addition and training of lightweight adapter modules. While adapter-based fine-tuning approaches have reported parameter efficiency and significant performance improvements, they face a often overlooked issue: the excessive consumption of GPU memory relative to the number of trainable parameters. Addressing this issue, this paper proposes a memory-efficient parallel convolutional adapter architecture. This architecture connects in parallel with SAM's image encoder, eliminating the need to store activations and gradients of the image encoder during model training. Our proposed architecture demonstrated competitive experimental results while using less than half the GPU memory compared to SAM Adapter, indicating its value as an alternative to simple decoder fine-tuning when hardware limitations preclude adapter-based learning. Our code implementation is available at our github.
- Abstract(参考訳): イメージセグメンテーションの基盤モデルであるSAM(Seegment Anything)は,提案以来,様々な分野で積極的に研究されてきた。
SAMを特定のドメインに適用するための様々な研究が提案されている。
アダプタベースの微調整アプローチではパラメータ効率と大幅なパフォーマンス向上が報告されているが、しばしば見過ごされる問題に直面している。
本稿では,メモリ効率の高い並列畳み込みアダプタアーキテクチャを提案する。
このアーキテクチャはSAMのイメージエンコーダと並行して接続され、モデルトレーニング中にイメージエンコーダのアクティベーションと勾配を保存する必要がなくなる。
提案アーキテクチャは、SAM Adapterに比べてGPUメモリの半分未満を使用せず、ハードウェアの制限によりアダプタベースの学習が妨げられる場合、単純なデコーダの微調整の代替としての価値を示す。
コード実装はgithubで公開しています。
関連論文リスト
- AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval [14.009257997448634]
本研究は,メモリ効率の制約を考慮に入れたインスタンスレベルの画像検索の問題について検討する。
提案モデルは、画像と画像の類似性を推定するために設計されたトランスフォーマーベースのアーキテクチャを使用する。
標準ベンチマークの結果は、手作りモデルと学習モデルの両方に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-08-06T16:29:51Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model [90.26396410706857]
本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。
CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。
Cat-SAM 変種は、非常に困難なワンショット適応設定の下でも、常に優れた目標セグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2024-02-06T02:00:18Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation [72.27914940012423]
画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
論文 参考訳(メタデータ) (2023-07-21T12:46:15Z) - Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation [8.16038976420041]
本稿では,メタ学習型マルチスケールメモリ比較器 (MMC) を提案する。
従来の作業とは違って、スケール情報交換時の詳細な機能マップを保存します。
我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-15T14:21:58Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。