Fugu-MT 論文翻訳(概要): ISCUTE: Instance Segmentation of Cables Using Text Embedding

論文の概要: ISCUTE: Instance Segmentation of Cables Using Text Embedding

arxiv url: http://arxiv.org/abs/2402.11996v2
Date: Tue, 27 Feb 2024 14:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:02:16.529064
Title: ISCUTE: Instance Segmentation of Cables Using Text Embedding
Title（参考訳）: ISCUTE: テキスト埋め込みを用いたケーブルのインスタンス分割
Authors: Shir Kozlovsky, Omkar Joglekar and Dotan Di Castro
Abstract要約: そこで本研究では,テキストプロンプブルでユーザフレンドリな,基礎モデルに基づくDLOインスタンスセグメンテーション手法を提案する。提案手法はDLOインスタンスセグメンテーションにおけるSOTA性能を超え,mIoUが91.21%$であることを示す。
参考スコア（独自算出の注目度）: 9.169640624921133
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In the field of robotics and automation, conventional object recognition and instance segmentation methods face a formidable challenge when it comes to perceiving Deformable Linear Objects (DLOs) like wires, cables, and flexible tubes. This challenge arises primarily from the lack of distinct attributes such as shape, color, and texture, which calls for tailored solutions to achieve precise identification. In this work, we propose a foundation model-based DLO instance segmentation technique that is text-promptable and user-friendly. Specifically, our approach combines the text-conditioned semantic segmentation capabilities of CLIPSeg model with the zero-shot generalization capabilities of Segment Anything Model (SAM). We show that our method exceeds SOTA performance on DLO instance segmentation, achieving a mIoU of $91.21\%$. We also introduce a rich and diverse DLO-specific dataset for instance segmentation.
Abstract（参考訳）: ロボット工学と自動化の分野では、電線やケーブル、柔軟なチューブといった変形可能な線形オブジェクト(dlos)を知覚する上で、従来のオブジェクト認識とインスタンスセグメンテーションの方法が大きな課題に直面している。この課題は、形状、色、テクスチャといった明確な特性の欠如から生じており、正確な識別を達成するために調整された解を求める。本稿では,テキストプロポータブルでユーザフレンドリーな基礎モデルに基づくdloインスタンスセグメンテーション手法を提案する。具体的には,CLIPSegモデルのテキスト条件セマンティックセグメンテーション機能とSegment Anything Model (SAM)のゼロショット一般化機能を組み合わせた。本手法はDLOインスタンスセグメンテーションにおけるSOTA性能を超え,mIoUが91.21\%$であることを示す。また、サンプルセグメンテーションのためのリッチで多様なDLO特化データセットも導入します。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
From Semantic To Instance: A Semi-Self-Supervised Learning Approach [6.092973123903838]
本稿では,高パフォーマンスなインスタンスセグメンテーションモデルを開発するために,最小限の手動アノテーションを必要とする半自己教師型学習手法を提案する。 GLMaskは、色特徴への依存を最小限に抑えつつ、形状、テクスチャ、パターンにフォーカスするモデルのためのイメージマスク表現である。提案手法は従来のインスタンスセグメンテーションモデルを大幅に上回り、mAP@50の98.5%の最先端の小麦ヘッドインスタンスセグメンテーションモデルを確立する。
論文参考訳（メタデータ） (2025-06-19T19:38:01Z)
Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2025-01-27T20:02:12Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。この純粋にデータ駆動のパラダイムは、特にトレーニング中に遭遇した領域から入力画像の領域がシフトした場合、しばしば不条理なセグメンテーションにつながる。我々の方法であるPhyFea(PhyFea)は、まず、オフラインデータ駆動方式で手元に設定したセグメンテーショントレーニングから空間クラス関係を規定する明示的な制約を抽出し、これらの制約の違反を罰する形態的かつ差別的な損失を強制する。
論文参考訳（メタデータ） (2024-08-26T22:39:08Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Beyond Pixels: Enhancing LIME with Hierarchical Features and Segmentation Foundation Models [2.355460994057843]
LIMEは、ビジョン機械学習モデルにおける意思決定プロセスを解き放つための人気のあるXAIフレームワークである。本稿では,DSEG-LIME(Data-Driven LIME)フレームワークについて紹介する。以上の結果から,DSEGは事前学習したImageNetモデルにおいて,XAIの指標よりも優れていた。
論文参考訳（メタデータ） (2024-03-12T15:13:12Z)
Universal Segmentation at Arbitrary Granularity with Language Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。 UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文参考訳（メタデータ） (2023-12-04T04:47:48Z)
ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文参考訳（メタデータ） (2023-11-05T18:51:33Z)
Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization [17.531847357428454]
ドメイン適応は特にロボティクスアプリケーションにおいて重要であり、ターゲットとなるドメイントレーニングデータは通常不足しており、アノテーションは入手するのにコストがかかる。本稿では、アノテートされたソースドメインデータが利用可能なシナリオに対して、自己教師付きドメイン適応手法を提案する。本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。
論文参考訳（メタデータ） (2023-09-27T10:37:36Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
ElC-OIS: Ellipsoidal Clustering for Open-World Instance Segmentation on LiDAR Data [13.978966783993146]
オープンワールドインスタンス(OIS)は、現在の観察に現れるすべてのオブジェクトインスタンスを正確に分割することを目的とした、難しいタスクである。これは、堅牢な自律ナビゲーションのような安全クリティカルなアプリケーションにとって重要である。我々は、LiDARポイントクラウドのための柔軟で効果的なOISフレームワークを提案し、既知のインスタンスと未知のインスタンスの両方を正確に分割できる。
論文参考訳（メタデータ） (2023-03-08T03:22:11Z)
Instance-Specific Feature Propagation for Referring Segmentation [28.58551450280675]
セグメンテーションの参照は、自然言語表現で示されるターゲットインスタンスのセグメンテーションマスクを生成することを目的としている。本稿では,特徴伝搬により興味の対象を同時に検出し,きめ細かいセグメンテーションマスクを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-26T07:08:14Z)
FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-02-24T16:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。