論文の概要: Quickly Tuning Foundation Models for Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.17283v1
- Date: Sun, 24 Aug 2025 10:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.445884
- Title: Quickly Tuning Foundation Models for Image Segmentation
- Title(参考訳): 画像セグメンテーションのためのクイックチューニング基礎モデル
- Authors: Breenda Das, Lennart Purucker, Timur Carstensen, Frank Hutter,
- Abstract要約: 画像セグメンテーションのためのSAMの微調整を自動化するメタラーニング駆動型アプローチであるQTT-SEGを紹介する。
QTT-SEGは、メタ学習コストと性能モデルを用いて高性能な構成を予測する。
その結果,QTT-SEGはSAMのゼロショット性能を常に改善し,AutoGluon Multimodalを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 41.388525127324534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models like SAM (Segment Anything Model) exhibit strong zero-shot image segmentation performance, but often fall short on domain-specific tasks. Fine-tuning these models typically requires significant manual effort and domain expertise. In this work, we introduce QTT-SEG, a meta-learning-driven approach for automating and accelerating the fine-tuning of SAM for image segmentation. Built on the Quick-Tune hyperparameter optimization framework, QTT-SEG predicts high-performing configurations using meta-learned cost and performance models, efficiently navigating a search space of over 200 million possibilities. We evaluate QTT-SEG on eight binary and five multiclass segmentation datasets under tight time constraints. Our results show that QTT-SEG consistently improves upon SAM's zero-shot performance and surpasses AutoGluon Multimodal, a strong AutoML baseline, on most binary tasks within three minutes. On multiclass datasets, QTT-SEG delivers consistent gains as well. These findings highlight the promise of meta-learning in automating model adaptation for specialized segmentation tasks. Code available at: https://github.com/ds-brx/QTT-SEG/
- Abstract(参考訳): SAM(Segment Anything Model)のようなファンデーションモデルは、ゼロショット画像セグメンテーションのパフォーマンスが強いが、ドメイン固有のタスクでは不足することが多い。
これらのモデルを微調整するには、通常、かなりの手作業とドメインの専門知識が必要です。
本研究では,画像セグメンテーションのためのSAMの微調整を自動化するメタラーニング駆動型アプローチであるQTT-SEGを紹介する。
Quick-Tuneハイパーパラメータ最適化フレームワーク上に構築されたQTT-SEGは、メタ学習コストとパフォーマンスモデルを使用して高性能な構成を予測し、2億以上の可能性の検索空間を効率的にナビゲートする。
厳密な時間制約の下で、8つのバイナリと5つのマルチクラスセグメンテーションデータセット上でQTT-SEGを評価する。
以上の結果から,QTT-SEGはSAMのゼロショット性能を常に改善し,AutoGluon Multimodalを3分以内のほとんどのバイナリタスクにおいて,強力なAutoMLベースラインである。
マルチクラスデータセットでは、QTT-SEGも一貫したゲインを提供する。
これらの結果は,特定セグメンテーションタスクに対するモデル適応の自動化におけるメタラーニングの可能性を浮き彫りにした。
https://github.com/ds-brx/QTT-SEG/
関連論文リスト
- SAMPO: Visual Preference Optimization for Intent-Aware Segmentation with Vision Foundation Models [5.3279948735247284]
SAMPOは、視覚的基礎モデルに、疎視的相互作用から高レベルのカテゴリー的意図を推論する新しいフレームワークである。
我々の研究は、視覚基盤モデルにおける意図認識のアライメントのための新しいパラダイムを確立し、補助的なプロンプトジェネレータや言語モデル支援の嗜好学習への依存を取り除く。
論文 参考訳(メタデータ) (2025-08-04T14:31:11Z) - Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。
このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。
Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文 参考訳(メタデータ) (2025-01-08T18:58:24Z) - TAVP: Task-Adaptive Visual Prompt for Cross-domain Few-shot Segmentation [40.49924427388922]
本稿では,CD-FSS(Cross-dominan Few-shot segmentation)のためのタスク適応型自動視覚プロンプトフレームワークを提案する。
クラスドメインタスク適応オートプロンプト(CDTAP)モジュールを組み込んで、クラスドメインの特徴抽出を可能にし、高品質で学習可能なビジュアルプロンプトを生成する。
本モデルでは,1ショット設定では1.3%,5ショット設定では11.76%の精度向上を実現し,最先端のCD-FSS手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T07:43:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - RMP-SAM: Towards Real-Time Multi-Purpose Segment Anything [117.02741621686677]
この研究はリアルタイム多目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を探索する。
インタラクティブセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションの3つの基本的なサブタスクを含んでいる。
動的畳み込みに基づく新しい動的畳み込み手法であるReal-Time Multi-Purpose SAM(RMP-SAM)を提案する。
効率的なエンコーダと、プロンプト駆動のデコードを実行するための効率的なデカップリングアダプタを含む。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。