Fugu-MT 論文翻訳(概要): BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM

論文の概要: BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM

arxiv url: http://arxiv.org/abs/2402.16338v4
Date: Mon, 11 Mar 2024 16:40:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 14:02:05.009499
Title: BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM
Title（参考訳）: BLO-SAM: SAMのオーバーフィッティングによる最適化
Authors: Li Zhang, Youwei Liang, Ruiyi Zhang, Amirhosein Javadi, Pengtao Xie
Abstract要約: BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。 BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
参考スコア（独自算出の注目度）: 37.1263294647351
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model's weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM's superior performance over various state-of-the-art image semantic segmentation methods.
Abstract（参考訳）: 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。その強みにもかかわらず、SAMは2つの大きな課題に直面している。まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。 SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。 BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。

関連論文リスト

Boosting SAM for Cross-Domain Few-Shot Segmentation via Conditional Point Sparsification [116.2386061247855]
我々は、参照例に基づいて、ドメイン間画像のSAMインタラクションを適応的にガイドする訓練不要なアプローチであるPoint Sparsification (CPS)を提案する。 CPSは、様々なCD-FSSデータセットで既存のトレーニング不要SAMベースのメソッドより優れている。
論文参考訳（メタデータ） (2026-02-05T02:17:38Z)
Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文参考訳（メタデータ） (2025-12-01T15:15:16Z)
CLAPS: A CLIP-Unified Auto-Prompt Segmentation for Multi-Modal Retinal Imaging [47.04292769940597]
CLIP統合オートプロンプト(CLAPS)は,網膜イメージングにおける様々なタスクとモダリティをまたいだセグメンテーションを統一する新しい手法である。私たちのアプローチは、CLIPベースの画像エンコーダを、大規模なマルチモーダル網膜データセット上で事前トレーニングすることから始まります。タスクを統一し、曖昧さを解消するために、各画像のモダリティに固有の「モダリティシグネチャ」を付加したテキストプロンプトを使用する。
論文参考訳（メタデータ） (2025-09-10T14:14:49Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文参考訳（メタデータ） (2024-05-01T00:13:05Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。 ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文参考訳（メタデータ） (2024-01-23T11:20:03Z)
BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。 SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文参考訳（メタデータ） (2024-01-04T15:34:44Z)
Guided Prompting in SAM for Weakly Supervised Cell Segmentation in Histopathological Images [27.14641973632063]
本稿では、セグメンタを誘導するために、関連するタスクからのアノテーションである弱い監視を使用することに焦点を当てる。 SAM(Segment Anything)のような最近の基礎モデルは、推論中に追加の監視を活用するためにプロンプトを使用することができる。すべてのSAMベースのソリューションは、既存の弱教師付きイメージセグメンテーションモデルを大幅に上回り、9～15 ptのDiceゲインを得る。
論文参考訳（メタデータ） (2023-11-29T11:18:48Z)
Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。 1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文参考訳（メタデータ） (2023-11-27T12:51:42Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。