論文の概要: Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation
- arxiv url: http://arxiv.org/abs/2506.05396v1
- Date: Tue, 03 Jun 2025 19:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.736312
- Title: Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation
- Title(参考訳): Talk2SAM: 複合形オブジェクトセグメンテーションのためのテキストガイドセマンティックエンハンスメント
- Authors: Luka Vetoshkin, Dmitry Yudin,
- Abstract要約: 本研究では,オブジェクトセグメンテーションを改善するためにテキストガイダンスを統合する新しいアプローチであるTalk2SAMを提案する。
ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を識別する。
Talk2SAMはSAM-HQを一貫して上回り、IoUは+5.9%、IoUは+8.3%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmenting objects with complex shapes, such as wires, bicycles, or structural grids, remains a significant challenge for current segmentation models, including the Segment Anything Model (SAM) and its high-quality variant SAM-HQ. These models often struggle with thin structures and fine boundaries, leading to poor segmentation quality. We propose Talk2SAM, a novel approach that integrates textual guidance to improve segmentation of such challenging objects. The method uses CLIP-based embeddings derived from user-provided text prompts to identify relevant semantic regions, which are then projected into the DINO feature space. These features serve as additional prompts for SAM-HQ, enhancing its ability to focus on the target object. Beyond improving segmentation accuracy, Talk2SAM allows user-controllable segmentation, enabling disambiguation of objects within a single bounding box based on textual input. We evaluate our approach on three benchmarks: BIG, ThinObject5K, and DIS5K. Talk2SAM consistently outperforms SAM-HQ, achieving up to +5.9\% IoU and +8.3\% boundary IoU improvements. Our results demonstrate that incorporating natural language guidance provides a flexible and effective means for precise object segmentation, particularly in cases where traditional prompt-based methods fail. The source code is available on GitHub: https://github.com/richlukich/Talk2SAM
- Abstract(参考訳): ワイヤー、自転車、構造グリッドなどの複雑な形状のオブジェクトを分割することは、SAM(Segment Anything Model)やSAM-HQ(英語版)など、現在のセグメンテーションモデルにとって重要な課題である。
これらのモデルは、しばしば細い構造と細い境界に悩まされ、セグメンテーションの品質が低下する。
本研究では,このような課題のあるオブジェクトのセグメンテーションを改善するために,テキストガイダンスを統合した新しいアプローチであるTalk2SAMを提案する。
この方法は、ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を特定し、DINO機能空間に投影する。
これらの機能はSAM-HQのさらなるプロンプトとして機能し、ターゲットオブジェクトにフォーカスする能力を高める。
セグメンテーションの精度の向上に加えて、Talk2SAMはユーザ制御可能なセグメンテーションを可能にし、テキスト入力に基づいた単一のバウンディングボックス内のオブジェクトの曖昧さを可能にする。
BIG, ThinObject5K, DIS5K の3つのベンチマークでアプローチを評価した。
Talk2SAM は SAM-HQ を一貫して上回り、IoU は +5.9\%、IoU は +8.3\% となる。
この結果から,従来のプロンプトベースの手法が失敗する場合に,自然言語指導を取り入れることで,オブジェクトの正確なセグメンテーションを柔軟かつ効果的に実現できることが示唆された。
ソースコードはGitHubで入手できる: https://github.com/richlukich/Talk2SAM
関連論文リスト
- SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation [4.4700130387278225]
ほとんどショットのセグメンテーションは、未確認のオブジェクトカテゴリを、注釈付き例のほんの一握りの例から分割することを目的としている。
本稿では,SANSA (Semantically AligNed Segment Anything 2) を提案する。
論文 参考訳(メタデータ) (2025-05-27T21:51:28Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。