論文の概要: InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2505.21920v1
- Date: Wed, 28 May 2025 03:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.388068
- Title: InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective
- Title(参考訳): InfoSAM:情報理論の観点からのセグメンテーションの微調整
- Authors: Yuanhong Zhang, Muyao Yuan, Weizhan Zhang, Tieliang Gong, Wen Wen, Jiangyong Ying, Weijie Shi,
- Abstract要約: Segment Anything Model (SAM)は、一般的なタスクにおいて印象的なゼロショット機能を示すが、専門領域では苦労している。
本研究では,SAMの蒸留・保存による微調整を促進する情報理論であるInfoSAMを提案する。
多様なベンチマークによる実験では、InfoSAMが現実世界のタスクにおけるSAMファミリーのパフォーマンスを改善する効果を検証している。
- 参考スコア(独自算出の注目度): 9.466559751950639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM), a vision foundation model, exhibits impressive zero-shot capabilities in general tasks but struggles in specialized domains. Parameter-efficient fine-tuning (PEFT) is a promising approach to unleash the potential of SAM in novel scenarios. However, existing PEFT methods for SAM neglect the domain-invariant relations encoded in the pre-trained model. To bridge this gap, we propose InfoSAM, an information-theoretic approach that enhances SAM fine-tuning by distilling and preserving its pre-trained segmentation knowledge. Specifically, we formulate the knowledge transfer process as two novel mutual information-based objectives: (i) to compress the domain-invariant relation extracted from pre-trained SAM, excluding pseudo-invariant information as possible, and (ii) to maximize mutual information between the relational knowledge learned by the teacher (pre-trained SAM) and the student (fine-tuned model). The proposed InfoSAM establishes a robust distillation framework for PEFT of SAM. Extensive experiments across diverse benchmarks validate InfoSAM's effectiveness in improving SAM family's performance on real-world tasks, demonstrating its adaptability and superiority in handling specialized scenarios.
- Abstract(参考訳): ビジョンファウンデーションモデルであるSegment Anything Model (SAM)は、一般的なタスクにおいて印象的なゼロショット機能を示すが、専門ドメインでは苦労している。
パラメータ効率細調整(PEFT)は、新しいシナリオにおいてSAMの可能性を解き放つための有望なアプローチである。
しかし、既存のSAMのためのPEFT法は、事前訓練されたモデルで符号化された領域不変関係を無視している。
このギャップを埋めるためにInfoSAMを提案する。この情報理論はSAMの微細調整を蒸留・保存することで促進する。
具体的には、知識伝達過程を2つの新しい相互情報に基づく目的として定式化する。
一 擬似不変情報を極力除いた事前訓練されたSAMから抽出したドメイン不変関係を圧縮し、
2)教師が学習した関係知識(事前学習SAM)と学生(微調整モデル)の相互情報を最大化する。
提案したInfoSAMは、SAMのPEFTのための堅牢な蒸留フレームワークを確立する。
多様なベンチマークにわたる大規模な実験は、SAMファミリーの実際のタスクにおけるパフォーマンス向上におけるInfoSAMの有効性を検証するとともに、特殊なシナリオを扱う際の適応性と優位性を示す。
関連論文リスト
- Continual Learning for Segment Anything Model Adaptation [14.00191851894315]
本研究では,8つのタスク領域を持つ新しい連続SAM適応(CoSAM)ベンチマークを提案する。
そこで,本研究では,SAMエンコーダがタスク領域ごとによく区切られた特徴を抽出するのを支援するために,新しい単純なyet- Effective Mixture of Domain Adapters (MoDA)アルゴリズムを提案する。
我々のMoDAは自然画像領域において高い競争力を維持しており、オリジナルのSAMのゼロショット性能に近づいた。
論文 参考訳(メタデータ) (2024-12-09T11:51:28Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation [22.344399402787644]
本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。
そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。
2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
論文 参考訳(メタデータ) (2024-03-25T02:30:32Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。