論文の概要: Adapting the Segment Anything Model During Usage in Novel Situations
- arxiv url: http://arxiv.org/abs/2404.08421v1
- Date: Fri, 12 Apr 2024 12:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:06:48.540385
- Title: Adapting the Segment Anything Model During Usage in Novel Situations
- Title(参考訳): 新しい状況下でのセグメンテーションモデルの適用
- Authors: Robin Schön, Julian Lorenz, Katja Ludwig, Rainer Lienhart,
- Abstract要約: 本稿では,最近公開されたSegment Anything Model(SAM)を即時使用時に適用するためのフレームワークを提案する。
提案された方法は、$textFR_20@85$で48.1 %、$textFR_30@90$で$46.6 %の相対還元を引き起こす。
- 参考スコア(独自算出の注目度): 12.999518604217853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The interactive segmentation task consists in the creation of object segmentation masks based on user interactions. The most common way to guide a model towards producing a correct segmentation consists in clicks on the object and background. The recently published Segment Anything Model (SAM) supports a generalized version of the interactive segmentation problem and has been trained on an object segmentation dataset which contains 1.1B masks. Though being trained extensively and with the explicit purpose of serving as a foundation model, we show significant limitations of SAM when being applied for interactive segmentation on novel domains or object types. On the used datasets, SAM displays a failure rate $\text{FR}_{30}@90$ of up to $72.6 \%$. Since we still want such foundation models to be immediately applicable, we present a framework that can adapt SAM during immediate usage. For this we will leverage the user interactions and masks, which are constructed during the interactive segmentation process. We use this information to generate pseudo-labels, which we use to compute a loss function and optimize a part of the SAM model. The presented method causes a relative reduction of up to $48.1 \%$ in the $\text{FR}_{20}@85$ and $46.6 \%$ in the $\text{FR}_{30}@90$ metrics.
- Abstract(参考訳): 対話型セグメンテーションタスクは、ユーザインタラクションに基づいたオブジェクトセグメンテーションマスクの作成によって構成される。
正しいセグメンテーションを生成するためにモデルを導く最も一般的な方法は、オブジェクトとバックグラウンドのクリックである。
先日発表されたSegment Anything Model (SAM)は、インタラクティブセグメンテーション問題の一般化バージョンをサポートし、1.1Bマスクを含むオブジェクトセグメンテーションデータセットでトレーニングされている。
基礎モデルとして機能することを目的として、広範囲に訓練されているが、新しいドメインやオブジェクトの対話的セグメンテーションに適用された場合、SAMの重大な制限が示される。
使用されるデータセットでは、SAMは失敗率$\text{FR}_{30}@90$を72.6 \%$まで表示する。
我々は依然としてそのような基盤モデルを直ちに適用したいので、即時使用時にSAMを適応できるフレームワークを提示します。
このために、対話的なセグメンテーションプロセスで構築されるユーザインタラクションとマスクを活用します。
この情報を用いて擬似ラベルを生成し、損失関数を計算し、SAMモデルの一部を最適化する。
この方法では、$\text{FR}_{20}@85$で48.1 \%$、$\text{FR}_{30}@90$で$46.6 \%$が相対的に減少する。
関連論文リスト
- Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - QIS : Interactive Segmentation via Quasi-Conformal Mappings [3.096214093393036]
ユーザ入力を正と負のクリックという形で組み込んだ準コンフォルマルな対話型セグメンテーション(QIS)モデルを提案する。
本稿では,QISが関心領域を含ませたり排除したりする能力の理論的支援を含む,提案モデルの徹底的な分析を行う。
論文 参考訳(メタデータ) (2024-02-22T16:49:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [86.29839352757922]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SqueezeSAM: User friendly mobile interactive segmentation [15.136237757939979]
Segment Anything Model (SAM) は対話型セグメンテーションの基礎モデルである。
生成AI、計算写真、医用画像の分野で大きな進歩をもたらした。
写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。
論文 参考訳(メタデータ) (2023-12-11T16:04:22Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - UCP-Net: Unstructured Contour Points for Instance Segmentation [2.105564340986074]
本稿では,初期セグメンテーションとセグメンテーションの洗練のために,制約のない輪郭クリックに基づく対話型セグメンテーションを提案する。
本手法は分類に依存しず,一般的なセグメンテーションデータセットの最先端手法よりもユーザインタラクションの少ない精度のセグメンテーションマスク(IoU > 85%)を生成する。
論文 参考訳(メタデータ) (2021-09-15T22:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。