論文の概要: ISCUTE: Instance Segmentation of Cables Using Text Embedding
- arxiv url: http://arxiv.org/abs/2402.11996v2
- Date: Tue, 27 Feb 2024 14:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:02:16.529064
- Title: ISCUTE: Instance Segmentation of Cables Using Text Embedding
- Title(参考訳): ISCUTE: テキスト埋め込みを用いたケーブルのインスタンス分割
- Authors: Shir Kozlovsky, Omkar Joglekar and Dotan Di Castro
- Abstract要約: そこで本研究では,テキストプロンプブルでユーザフレンドリな,基礎モデルに基づくDLOインスタンスセグメンテーション手法を提案する。
提案手法はDLOインスタンスセグメンテーションにおけるSOTA性能を超え,mIoUが91.21%$であることを示す。
- 参考スコア(独自算出の注目度): 9.169640624921133
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the field of robotics and automation, conventional object recognition and
instance segmentation methods face a formidable challenge when it comes to
perceiving Deformable Linear Objects (DLOs) like wires, cables, and flexible
tubes. This challenge arises primarily from the lack of distinct attributes
such as shape, color, and texture, which calls for tailored solutions to
achieve precise identification. In this work, we propose a foundation
model-based DLO instance segmentation technique that is text-promptable and
user-friendly. Specifically, our approach combines the text-conditioned
semantic segmentation capabilities of CLIPSeg model with the zero-shot
generalization capabilities of Segment Anything Model (SAM). We show that our
method exceeds SOTA performance on DLO instance segmentation, achieving a mIoU
of $91.21\%$. We also introduce a rich and diverse DLO-specific dataset for
instance segmentation.
- Abstract(参考訳): ロボット工学と自動化の分野では、電線やケーブル、柔軟なチューブといった変形可能な線形オブジェクト(dlos)を知覚する上で、従来のオブジェクト認識とインスタンスセグメンテーションの方法が大きな課題に直面している。
この課題は、形状、色、テクスチャといった明確な特性の欠如から生じており、正確な識別を達成するために調整された解を求める。
本稿では,テキストプロポータブルでユーザフレンドリーな基礎モデルに基づくdloインスタンスセグメンテーション手法を提案する。
具体的には,CLIPSegモデルのテキスト条件セマンティックセグメンテーション機能とSegment Anything Model (SAM)のゼロショット一般化機能を組み合わせた。
本手法はDLOインスタンスセグメンテーションにおけるSOTA性能を超え,mIoUが91.21\%$であることを示す。
また、サンプルセグメンテーションのためのリッチで多様なDLO特化データセットも導入します。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization [17.531847357428454]
ドメイン適応は特にロボティクスアプリケーションにおいて重要であり、ターゲットとなるドメイントレーニングデータは通常不足しており、アノテーションは入手するのにコストがかかる。
本稿では、アノテートされたソースドメインデータが利用可能なシナリオに対して、自己教師付きドメイン適応手法を提案する。
本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。
論文 参考訳(メタデータ) (2023-09-27T10:37:36Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - ElC-OIS: Ellipsoidal Clustering for Open-World Instance Segmentation on
LiDAR Data [13.978966783993146]
オープンワールドインスタンス(OIS)は、現在の観察に現れるすべてのオブジェクトインスタンスを正確に分割することを目的とした、難しいタスクである。
これは、堅牢な自律ナビゲーションのような安全クリティカルなアプリケーションにとって重要である。
我々は、LiDARポイントクラウドのための柔軟で効果的なOISフレームワークを提案し、既知のインスタンスと未知のインスタンスの両方を正確に分割できる。
論文 参考訳(メタデータ) (2023-03-08T03:22:11Z) - Instance-Specific Feature Propagation for Referring Segmentation [28.58551450280675]
セグメンテーションの参照は、自然言語表現で示されるターゲットインスタンスのセグメンテーションマスクを生成することを目的としている。
本稿では,特徴伝搬により興味の対象を同時に検出し,きめ細かいセグメンテーションマスクを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-26T07:08:14Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。