論文の概要: Adapting the Segment Anything Model During Usage in Novel Situations
- arxiv url: http://arxiv.org/abs/2404.08421v1
- Date: Fri, 12 Apr 2024 12:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:06:48.540385
- Title: Adapting the Segment Anything Model During Usage in Novel Situations
- Title(参考訳): 新しい状況下でのセグメンテーションモデルの適用
- Authors: Robin Schön, Julian Lorenz, Katja Ludwig, Rainer Lienhart,
- Abstract要約: 本稿では,最近公開されたSegment Anything Model(SAM)を即時使用時に適用するためのフレームワークを提案する。
提案された方法は、$textFR_20@85$で48.1 %、$textFR_30@90$で$46.6 %の相対還元を引き起こす。
- 参考スコア(独自算出の注目度): 12.999518604217853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interactive segmentation task consists in the creation of object segmentation masks based on user interactions. The most common way to guide a model towards producing a correct segmentation consists in clicks on the object and background. The recently published Segment Anything Model (SAM) supports a generalized version of the interactive segmentation problem and has been trained on an object segmentation dataset which contains 1.1B masks. Though being trained extensively and with the explicit purpose of serving as a foundation model, we show significant limitations of SAM when being applied for interactive segmentation on novel domains or object types. On the used datasets, SAM displays a failure rate $\text{FR}_{30}@90$ of up to $72.6 \%$. Since we still want such foundation models to be immediately applicable, we present a framework that can adapt SAM during immediate usage. For this we will leverage the user interactions and masks, which are constructed during the interactive segmentation process. We use this information to generate pseudo-labels, which we use to compute a loss function and optimize a part of the SAM model. The presented method causes a relative reduction of up to $48.1 \%$ in the $\text{FR}_{20}@85$ and $46.6 \%$ in the $\text{FR}_{30}@90$ metrics.
- Abstract(参考訳): 対話型セグメンテーションタスクは、ユーザインタラクションに基づいたオブジェクトセグメンテーションマスクの作成によって構成される。
正しいセグメンテーションを生成するためにモデルを導く最も一般的な方法は、オブジェクトとバックグラウンドのクリックである。
先日発表されたSegment Anything Model (SAM)は、インタラクティブセグメンテーション問題の一般化バージョンをサポートし、1.1Bマスクを含むオブジェクトセグメンテーションデータセットでトレーニングされている。
基礎モデルとして機能することを目的として、広範囲に訓練されているが、新しいドメインやオブジェクトの対話的セグメンテーションに適用された場合、SAMの重大な制限が示される。
使用されるデータセットでは、SAMは失敗率$\text{FR}_{30}@90$を72.6 \%$まで表示する。
我々は依然としてそのような基盤モデルを直ちに適用したいので、即時使用時にSAMを適応できるフレームワークを提示します。
このために、対話的なセグメンテーションプロセスで構築されるユーザインタラクションとマスクを活用します。
この情報を用いて擬似ラベルを生成し、損失関数を計算し、SAMモデルの一部を最適化する。
この方法では、$\text{FR}_{20}@85$で48.1 \%$、$\text{FR}_{30}@90$で$46.6 \%$が相対的に減少する。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - QIS : Interactive Segmentation via Quasi-Conformal Mappings [3.096214093393036]
ユーザ入力を正と負のクリックという形で組み込んだ準コンフォルマルな対話型セグメンテーション(QIS)モデルを提案する。
本稿では,QISが関心領域を含ませたり排除したりする能力の理論的支援を含む,提案モデルの徹底的な分析を行う。
論文 参考訳(メタデータ) (2024-02-22T16:49:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - UCP-Net: Unstructured Contour Points for Instance Segmentation [2.105564340986074]
本稿では,初期セグメンテーションとセグメンテーションの洗練のために,制約のない輪郭クリックに基づく対話型セグメンテーションを提案する。
本手法は分類に依存しず,一般的なセグメンテーションデータセットの最先端手法よりもユーザインタラクションの少ない精度のセグメンテーションマスク(IoU > 85%)を生成する。
論文 参考訳(メタデータ) (2021-09-15T22:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。