論文の概要: SqueezeSAM: User friendly mobile interactive segmentation
- arxiv url: http://arxiv.org/abs/2312.06736v2
- Date: Wed, 15 May 2024 00:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 18:12:17.953824
- Title: SqueezeSAM: User friendly mobile interactive segmentation
- Title(参考訳): SqueezeSAM: ユーザフレンドリーなモバイルインタラクティブセグメンテーション
- Authors: Balakrishnan Varadarajan, Bilge Soran, Forrest Iandola, Xiaoyu Xiang, Yunyang Xiong, Lemeng Wu, Chenchen Zhu, Raghuraman Krishnamoorthi, Vikas Chandra,
- Abstract要約: Segment Anything Model (SAM) はインタラクティブセグメンテーションの分野における基盤となっている。
本研究の目的は,モバイル写真アプリケーションにSAMを応用することである。
SqueezeSAM モデルアーキテクチャは,従来の SAM の 62.5 倍の高速化と 31.6 倍の小型化を実現した。
- 参考スコア(独自算出の注目度): 21.37175388518365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) has been a cornerstone in the field of interactive segmentation, propelling significant progress in generative AI, computational photography, and medical imaging. Despite its ability to process arbitrary user input and generate corresponding segmentation masks, SAM's 600 million parameter architecture, based on ViT-H, is not compatible with current mobile hardware due to its high computational demands and large model size. Our research aims to adapt SAM for use in mobile photography applications. To this end, we have developed a fully convolutional SqueezeSAM model architecture, which is 62.5 times faster and 31.6 times smaller than the original SAM, making it a viable solution for mobile applications. Furthermore, our tiny model achieves an mIOU within \emph{1\%} of the original VIT-H architecture. Automated segmentation holds significant value in the creation flow for photography applications, as evidenced by its adoption by leading industry players like apple and capcut. To facilitate this automation, we employ salient object detection and simulate potential user clicks for foreground object selection, generating an initial segmentation mask that users can subsequently edit interactively. A common user expectation is that a click on a specific part of an object will result in the segmentation of the entire object. For example, a click on a person's t-shirt in a photo should ideally segment the entire person, not just the t-shirt. However, SAM typically only segments the clicked area. We address this limitation through a novel data augmentation scheme. Consequently, if a user clicks on a person holding a basketball, both the person and the basketball are segmented together, aligning with user expectations and enhancing the overall user experience.
- Abstract(参考訳): Segment Anything Model (SAM)は、インタラクティブセグメンテーションの分野における基盤であり、生成AI、計算写真、医療画像の進歩を加速させている。
任意のユーザ入力を処理し、対応するセグメンテーションマスクを生成する能力があるにもかかわらず、SAMの6億ドルのパラメータアーキテクチャはViT-Hをベースにしており、その高い計算要求と大きなモデルサイズのために現在のモバイルハードウェアと互換性がない。
本研究の目的は,モバイル写真アプリケーションにSAMを応用することである。
この目的のために、完全に畳み込まれたSqueezeSAMモデルアーキテクチャを開発し、これは元のSAMより62.5倍速く、31.6倍小さいので、モバイルアプリケーションにとって実行可能なソリューションです。
さらに、我々の小さなモデルは、元のVIT-Hアーキテクチャのemph{1\%}内のmIOUを達成する。
自動セグメンテーション(Automated segmentation)は、リンゴやカプカットといった業界の主要なプレイヤーによって採用されていることの証明として、写真アプリケーションの作成フローにおいて重要な価値を持っている。
この自動化を容易にするために,我々は,有能なオブジェクト検出と,前景オブジェクト選択のための潜在的なユーザクリックをシミュレートし,ユーザが対話的に編集できる初期セグメンテーションマスクを生成する。
一般的なユーザからの期待は、オブジェクトの特定の部分のクリックがオブジェクト全体のセグメンテーションをもたらすことである。
例えば、写真の中の人のTシャツをクリックすれば、Tシャツだけでなく、理想的には人全体を分割できる。
しかし、SAMは通常、クリックされた領域のみをセグメント化する。
我々はこの制限を新しいデータ拡張方式によって解決する。
これにより、ユーザがバスケットボールを持っている人をクリックすると、人とバスケットボールの両方がセグメンテーションされ、ユーザの期待と一致し、全体的なユーザエクスペリエンスが向上する。
関連論文リスト
- From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Adapting the Segment Anything Model During Usage in Novel Situations [12.999518604217853]
本稿では,最近公開されたSegment Anything Model(SAM)を即時使用時に適用するためのフレームワークを提案する。
提案された方法は、$textFR_20@85$で48.1 %、$textFR_30@90$で$46.6 %の相対還元を引き起こす。
論文 参考訳(メタデータ) (2024-04-12T12:10:53Z) - Segment Any Object Model (SAOM): Real-to-Simulation Fine-Tuning Strategy for Multi-Class Multi-Instance Segmentation [23.562500297070578]
我々は,Segment Any Object Model (SAOM) のための領域不変なReal-to-Simulation(Real-Sim)ファインチューニング戦略を提案する。
微調整中のAi2Thorシミュレータから収集した物体画像と地中真実データを用いた。
SAOMはSAMを大幅に改善し,mIoUは28%,mAccは25%増加した。
論文 参考訳(メタデータ) (2024-03-16T02:54:49Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Input Augmentation with SAM: Boosting Medical Image Segmentation with
Segmentation Foundation Model [36.015065439244495]
Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。
SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。
本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
論文 参考訳(メタデータ) (2023-04-22T07:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。