Fugu-MT 論文翻訳(概要): SqueezeSAM: User friendly mobile interactive segmentation

論文の概要: SqueezeSAM: User friendly mobile interactive segmentation

arxiv url: http://arxiv.org/abs/2312.06736v1
Date: Mon, 11 Dec 2023 16:04:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 18:20:20.668697
Title: SqueezeSAM: User friendly mobile interactive segmentation
Title（参考訳）: SqueezeSAM: ユーザフレンドリーなモバイルインタラクティブセグメンテーション
Authors: Balakrishnan Varadarajan, Bilge Soran, Forrest Iandola, Xiaoyu Xiang, Yunyang Xiong, Chenchen Zhu, Raghuraman Krishnamoorthi, Vikas Chandra
Abstract要約: Segment Anything Model (SAM) は対話型セグメンテーションの基礎モデルである。生成AI、計算写真、医用画像の分野で大きな進歩をもたらした。写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。
参考スコア（独自算出の注目度）: 15.136237757939979
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Segment Anything Model (SAM) is a foundation model for interactive segmentation, and it has catalyzed major advances in generative AI, computational photography, and medical imaging. This model takes in an arbitrary user input and provides segmentation masks of the corresponding objects. It is our goal to develop a version of SAM that is appropriate for use in a photography app. The original SAM model has a few challenges in this setting. First, original SAM a 600 million parameter based on ViT-H, and its high computational cost and large model size that are not suitable for todays mobile hardware. We address this by proposing the SqueezeSAM model architecture, which is 50x faster and 100x smaller than SAM. Next, when a user takes a photo on their phone, it might not occur to them to click on the image and get a mask. Our solution is to use salient object detection to generate the first few clicks. This produces an initial segmentation mask that the user can interactively edit. Finally, when a user clicks on an object, they typically expect all related pieces of the object to be segmented. For instance, if a user clicks on a person t-shirt in a photo, they expect the whole person to be segmented, but SAM typically segments just the t-shirt. We address this with a new data augmentation scheme, and the end result is that if the user clicks on a person holding a basketball, the person and the basketball are all segmented together.
Abstract（参考訳）: Segment Anything Model (SAM) はインタラクティブなセグメンテーションの基礎モデルであり、生成AI、計算写真、医療画像などの大きな進歩を触媒している。このモデルは任意のユーザ入力を受け取り、対応するオブジェクトのセグメンテーションマスクを提供する。写真アプリでの使用に適したSAMのバージョンを開発することが私たちの目標です。オリジナルのSAMモデルは、この設定でいくつかの課題があります。第一に、オリジナルのSAMはViT-Hに基づく6億のパラメータを持ち、その計算コストが高く、現在のモバイルハードウェアには適さない大きなモデルサイズである。これは、50倍高速で、samより100倍小さいspuspersamモデルアーキテクチャを提案することで対処します。次に、ユーザーが携帯電話で写真を撮ると、画像のクリックやマスクの取得は起こらないかもしれない。私たちの解決策は、saient object detectionを使って最初の数クリックを生成することです。これにより、ユーザがインタラクティブに編集できる最初のセグメンテーションマスクが生成される。最後に、ユーザがオブジェクトをクリックすると、通常、関連するすべてのオブジェクトがセグメント化されることを期待します。例えば、ユーザーが写真のTシャツをクリックすると、全体はセグメント化されますが、SAMは通常、Tシャツだけにセグメント化されます。私たちは、新しいデータ拡張スキームでこの問題に対処し、最終的に、ユーザーがバスケットボールを持っている人をクリックすると、その人とバスケットボールがすべてセグメンテーションされる。

関連論文リスト

MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking [19.024705487189262]
単一画像移動オブジェクトセグメンテーションのための最初のフレームワークであるMovSAMを提案する。 MovSAM は Chain-of-Thought (CoT) で拡張された Multimodal Large Language Model (MLLM) を利用して、動くオブジェクトを検索する。これらのプロンプトは、SAM(Segment Anything Model)とVLM(Vision-Language Model)の視覚的特徴と相互に融合する。 MovSAMは、公開MOSベンチマークで最先端のパフォーマンスを達成し、J&Fで92.5%に達した。
論文参考訳（メタデータ） (2025-04-09T13:12:58Z)
From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。 SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。 SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文参考訳（メタデータ） (2024-08-12T17:17:35Z)
Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文参考訳（メタデータ） (2024-06-17T12:38:01Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文参考訳（メタデータ） (2024-04-18T17:59:53Z)
Adapting the Segment Anything Model During Usage in Novel Situations [12.999518604217853]
本稿では,最近公開されたSegment Anything Model(SAM)を即時使用時に適用するためのフレームワークを提案する。提案された方法は、$textFR_20@85$で48.1 %、$textFR_30@90$で$46.6 %の相対還元を引き起こす。
論文参考訳（メタデータ） (2024-04-12T12:10:53Z)
Segment Any Object Model (SAOM): Real-to-Simulation Fine-Tuning Strategy for Multi-Class Multi-Instance Segmentation [23.562500297070578]
我々は,Segment Any Object Model (SAOM) のための領域不変なReal-to-Simulation(Real-Sim)ファインチューニング戦略を提案する。微調整中のAi2Thorシミュレータから収集した物体画像と地中真実データを用いた。 SAOMはSAMを大幅に改善し,mIoUは28%,mAccは25%増加した。
論文参考訳（メタデータ） (2024-03-16T02:54:49Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。 SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文参考訳（メタデータ） (2023-06-14T16:13:27Z)
Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。 PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。 PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文参考訳（メタデータ） (2023-05-04T17:59:36Z)
Input Augmentation with SAM: Boosting Medical Image Segmentation with Segmentation Foundation Model [36.015065439244495]
Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。 SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
論文参考訳（メタデータ） (2023-04-22T07:11:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。