論文の概要: Segment Any Object Model (SAOM): Real-to-Simulation Fine-Tuning Strategy for Multi-Class Multi-Instance Segmentation
- arxiv url: http://arxiv.org/abs/2403.10780v1
- Date: Sat, 16 Mar 2024 02:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:54:53.869531
- Title: Segment Any Object Model (SAOM): Real-to-Simulation Fine-Tuning Strategy for Multi-Class Multi-Instance Segmentation
- Title(参考訳): Segment Any Object Model (SAOM): マルチクラスマルチインスタンスセグメンテーションのための実シミュレーションファインチューニング戦略
- Authors: Mariia Khan, Yue Qiu, Yuren Cong, Jumana Abu-Khalaf, David Suter, Bodo Rosenhahn,
- Abstract要約: 我々は,Segment Any Object Model (SAOM) のための領域不変なReal-to-Simulation(Real-Sim)ファインチューニング戦略を提案する。
微調整中のAi2Thorシミュレータから収集した物体画像と地中真実データを用いた。
SAOMはSAMを大幅に改善し,mIoUは28%,mAccは25%増加した。
- 参考スコア(独自算出の注目度): 23.562500297070578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-class multi-instance segmentation is the task of identifying masks for multiple object classes and multiple instances of the same class within an image. The foundational Segment Anything Model (SAM) is designed for promptable multi-class multi-instance segmentation but tends to output part or sub-part masks in the "everything" mode for various real-world applications. Whole object segmentation masks play a crucial role for indoor scene understanding, especially in robotics applications. We propose a new domain invariant Real-to-Simulation (Real-Sim) fine-tuning strategy for SAM. We use object images and ground truth data collected from Ai2Thor simulator during fine-tuning (real-to-sim). To allow our Segment Any Object Model (SAOM) to work in the "everything" mode, we propose the novel nearest neighbour assignment method, updating point embeddings for each ground-truth mask. SAOM is evaluated on our own dataset collected from Ai2Thor simulator. SAOM significantly improves on SAM, with a 28% increase in mIoU and a 25% increase in mAcc for 54 frequently-seen indoor object classes. Moreover, our Real-to-Simulation fine-tuning strategy demonstrates promising generalization performance in real environments without being trained on the real-world data (sim-to-real). The dataset and the code will be released after publication.
- Abstract(参考訳): マルチクラスのマルチインスタンスセグメンテーションは、イメージ内の複数のオブジェクトクラスと同じクラスの複数のインスタンスのマスクを識別するタスクである。
SAM(Foundational Segment Anything Model)は、マルチクラスのマルチインスタンスセグメンテーション用に設計されているが、様々な現実世界のアプリケーション向けに「すべて」モードで部分または部分マスクを出力する傾向がある。
全物体セグメンテーションマスクは、特にロボット工学の応用において、屋内のシーン理解において重要な役割を担っている。
我々はSAMのための新しい領域不変なReal-to-Simulation(Real-Sim)ファインチューニング戦略を提案する。
物体画像とAi2Thorシミュレータから収集した地中真実データを用いて微調整を行う。
そこで我々は,Segment Any Object Model (SAOM) を「すべて」モードで動作させるため,新しい近接代入法を提案し,各接地トラスマスクの点埋め込みを更新する。
SAOMは、Ai2Thorシミュレータから収集したデータセットに基づいて評価される。
SAOMはSAMを大幅に改善し,mIoUは28%,mAccは25%増加した。
さらに,実世界データ(sim-to-real)をトレーニングすることなく,実環境における有望な一般化性能を示す。
データセットとコードは公開後にリリースされる。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。