論文の概要: SqueezeSAM: User friendly mobile interactive segmentation
- arxiv url: http://arxiv.org/abs/2312.06736v1
- Date: Mon, 11 Dec 2023 16:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:20:20.668697
- Title: SqueezeSAM: User friendly mobile interactive segmentation
- Title(参考訳): SqueezeSAM: ユーザフレンドリーなモバイルインタラクティブセグメンテーション
- Authors: Balakrishnan Varadarajan, Bilge Soran, Forrest Iandola, Xiaoyu Xiang,
Yunyang Xiong, Chenchen Zhu, Raghuraman Krishnamoorthi, Vikas Chandra
- Abstract要約: Segment Anything Model (SAM) は対話型セグメンテーションの基礎モデルである。
生成AI、計算写真、医用画像の分野で大きな進歩をもたらした。
写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。
- 参考スコア(独自算出の注目度): 15.136237757939979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) is a foundation model for interactive
segmentation, and it has catalyzed major advances in generative AI,
computational photography, and medical imaging. This model takes in an
arbitrary user input and provides segmentation masks of the corresponding
objects. It is our goal to develop a version of SAM that is appropriate for use
in a photography app. The original SAM model has a few challenges in this
setting. First, original SAM a 600 million parameter based on ViT-H, and its
high computational cost and large model size that are not suitable for todays
mobile hardware. We address this by proposing the SqueezeSAM model
architecture, which is 50x faster and 100x smaller than SAM. Next, when a user
takes a photo on their phone, it might not occur to them to click on the image
and get a mask. Our solution is to use salient object detection to generate the
first few clicks. This produces an initial segmentation mask that the user can
interactively edit. Finally, when a user clicks on an object, they typically
expect all related pieces of the object to be segmented. For instance, if a
user clicks on a person t-shirt in a photo, they expect the whole person to be
segmented, but SAM typically segments just the t-shirt. We address this with a
new data augmentation scheme, and the end result is that if the user clicks on
a person holding a basketball, the person and the basketball are all segmented
together.
- Abstract(参考訳): Segment Anything Model (SAM) はインタラクティブなセグメンテーションの基礎モデルであり、生成AI、計算写真、医療画像などの大きな進歩を触媒している。
このモデルは任意のユーザ入力を受け取り、対応するオブジェクトのセグメンテーションマスクを提供する。
写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。
オリジナルのSAMモデルは、この設定でいくつかの課題があります。
第一に、オリジナルのSAMはViT-Hに基づく6億のパラメータを持ち、その計算コストが高く、現在のモバイルハードウェアには適さない大きなモデルサイズである。
これは、50倍高速で、samより100倍小さいspuspersamモデルアーキテクチャを提案することで対処します。
次に、ユーザーが携帯電話で写真を撮ると、画像のクリックやマスクの取得は起こらないかもしれない。
私たちの解決策は、saient object detectionを使って最初の数クリックを生成することです。
これにより、ユーザがインタラクティブに編集できる最初のセグメンテーションマスクが生成される。
最後に、ユーザがオブジェクトをクリックすると、通常、関連するすべてのオブジェクトがセグメント化されることを期待します。
例えば、ユーザーが写真のTシャツをクリックすると、全体はセグメント化されますが、SAMは通常、Tシャツだけにセグメント化されます。
私たちは、新しいデータ拡張スキームでこの問題に対処し、最終的に、ユーザーがバスケットボールを持っている人をクリックすると、その人とバスケットボールがすべてセグメンテーションされる。
関連論文リスト
- Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Adapting the Segment Anything Model During Usage in Novel Situations [12.999518604217853]
本稿では,最近公開されたSegment Anything Model(SAM)を即時使用時に適用するためのフレームワークを提案する。
提案された方法は、$textFR_20@85$で48.1 %、$textFR_30@90$で$46.6 %の相対還元を引き起こす。
論文 参考訳(メタデータ) (2024-04-12T12:10:53Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z) - Segment Anything in High Quality [116.39405160133315]
そこで本研究では,SAM のプロンプト可能な設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。
注意深い設計はSAMの事前訓練されたモデルの重みを再利用し、保存し、最小限の追加パラメータと計算しか導入しない。
ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
論文 参考訳(メタデータ) (2023-06-02T14:23:59Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Customized Segment Anything Model for Medical Image Segmentation [10.933449793055313]
我々は,大規模画像分割モデルであるSAM(Segment Anything Model)に基づいて,医用画像分割のための大規模モデルをカスタマイズする新たな研究パラダイムを探求する。
SAMedは、SAMイメージエンコーダにローランクベース(LoRA)ファインタニング戦略を適用し、ラベル付き医用画像セグメンテーションデータセットにプロンプトエンコーダとマスクデコーダを併用する。
我々の訓練されたSAMedモデルは,最先端の手法に匹敵する医用画像のセマンティックセグメンテーションを実現する。
論文 参考訳(メタデータ) (2023-04-26T19:05:34Z) - Input Augmentation with SAM: Boosting Medical Image Segmentation with
Segmentation Foundation Model [36.015065439244495]
Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。
SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。
本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
論文 参考訳(メタデータ) (2023-04-22T07:11:53Z) - Segment Anything Model (SAM) for Digital Pathology: Assess Zero-shot
Segmentation on Whole Slide Imaging [12.533476185972527]
画像セグメンテーションの基礎モデルとしてセグメンテーションモデル(SAM)がリリースされた。
スライド画像全体(WSI)における代表セグメンテーションタスクにおけるSAMモデルのゼロショットセグメンテーション性能を評価する。
その結果,0ショットSAMモデルは大きな連結オブジェクトに対して顕著なセグメンテーション性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-04-09T04:06:59Z) - Segment Anything [108.16489338211093]
私たちはこれまでで最大のセグメンテーションデータセットを構築し、1100万ライセンスのマスクを10億枚以上使用し、画像のプライバシーを尊重しています。
このモデルは、高速に撮影できるように設計および訓練されており、ゼロショットを新しい画像配信やタスクに転送することができる。
多数のタスクでその能力を評価した結果、ゼロショット性能は印象的であることが判明した。
論文 参考訳(メタデータ) (2023-04-05T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。