論文の概要: SPT: Sequence Prompt Transformer for Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2412.10224v1
- Date: Fri, 13 Dec 2024 15:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:36.295215
- Title: SPT: Sequence Prompt Transformer for Interactive Image Segmentation
- Title(参考訳): SPT:インタラクティブ画像分割のためのシーケンスプロンプト変換器
- Authors: Senlin Cheng, Haopeng Sun,
- Abstract要約: 対話型セグメンテーションにシーケンシャルな画像情報を利用するSPT(Sequence Prompt Transformer)を提案する。
本モデルは,(1)画像のシーケンスから情報を取得するシーケンス・プロンプト・トランスフォーマー(SPT)と,その精度向上のためのクリック・マスクの2つのキーコンポーネントから構成される。
我々は、複数のベンチマークデータセットに対するアプローチを評価し、我々のモデルがすべてのデータセットにまたがる最先端の手法を超えることを示す。
- 参考スコア(独自算出の注目度): 3.0846824529023387
- License:
- Abstract: Interactive segmentation aims to extract objects of interest from an image based on user-provided clicks. In real-world applications, there is often a need to segment a series of images featuring the same target object. However, existing methods typically process one image at a time, failing to consider the sequential nature of the images. To overcome this limitation, we propose a novel method called Sequence Prompt Transformer (SPT), the first to utilize sequential image information for interactive segmentation. Our model comprises two key components: (1) Sequence Prompt Transformer (SPT) for acquiring information from sequence of images, clicks and masks to improve accurate. (2) Top-k Prompt Selection (TPS) selects precise prompts for SPT to further enhance the segmentation effect. Additionally, we create the ADE20K-Seq benchmark to better evaluate model performance. We evaluate our approach on multiple benchmark datasets and show that our model surpasses state-of-the-art methods across all datasets.
- Abstract(参考訳): インタラクティブセグメンテーションは、ユーザが提供するクリックに基づいて、画像から興味のあるオブジェクトを抽出することを目的としている。
現実世界のアプリケーションでは、しばしば同じターゲットオブジェクトを特徴とする一連のイメージをセグメント化する必要がある。
しかし、既存の手法は通常、1つの画像を一度に処理し、画像のシーケンシャルな性質を考慮できない。
この制限を克服するため,SPT (Sequence Prompt Transformer) と呼ばれる,対話型セグメンテーションにシーケンシャルな画像情報を利用する新しい手法を提案する。
本モデルは,(1)画像のシーケンスから情報を取得するシーケンス・プロンプト・トランスフォーマー(SPT)と,その精度向上のためのクリック・マスクの2つのキーコンポーネントから構成される。
2)Top-k Prompt Selection (TPS)はSPTの正確なプロンプトを選択し、セグメンテーション効果をさらに強化する。
さらに、モデル性能を評価するためにADE20K-Seqベンチマークを作成します。
我々は、複数のベンチマークデータセットに対するアプローチを評価し、我々のモデルがすべてのデータセットにまたがる最先端の手法を超えることを示す。
関連論文リスト
- GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文 参考訳(メタデータ) (2024-10-14T09:19:05Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation [2.482735440750151]
本稿では,3つの新しいコンポーネントを含むクリックベースおよびマスク誘導型インタラクティブ画像分割フレームワークを提案する。
提案フレームワークは,セグメント化結果を粗い方法で生成する統合推論フレームワークを提供する。
我々のモデルは33.2%減少し、15.5%は従来の最先端のアプローチで0.95のIoUを超えるのに必要なクリック数である。
論文 参考訳(メタデータ) (2023-03-09T23:20:35Z) - ZegOT: Zero-shot Segmentation Through Optimal Transport of Text Prompts [41.14796120215464]
本稿では,ZegOT法によるZero-shotセグメンテーションを提案する。
MPOTは、複数のテキストプロンプトと凍結したイメージエンコーダ隠されたレイヤの視覚的特徴マップの間の最適なマッピングを学ぶように設計されている。
提案手法は,既存のゼロショットセマンティック・ザ・アート(ZS3)アプローチに対して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-01-28T11:51:20Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。