論文の概要: Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation
- arxiv url: http://arxiv.org/abs/2506.11131v1
- Date: Tue, 10 Jun 2025 18:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.495883
- Title: Segment This Thing: Foveated Tokenization for Efficient Point-Prompted Segmentation
- Title(参考訳): このセグメンテーション:効率的なポイントプロンプテッドセグメンテーションのための創発的トークン化
- Authors: Tanner Schmidt, Richard Newcombe,
- Abstract要約: 本稿では,一点プロンプトを与えられた単一セグメントを生成するために設計された,新しい効率的な画像分割モデルを提案する。
モデルサイズを小さくすることで、事前の作業に追従して効率を向上する代わりに、入力画像のファーベレーションにより効率を上げる。
セグメンテーションベンチマークでは競争力を維持しながら、我々のセグメンション・This Thingモデルは以前の作業よりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 2.496658839569897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Segment This Thing (STT), a new efficient image segmentation model designed to produce a single segment given a single point prompt. Instead of following prior work and increasing efficiency by decreasing model size, we gain efficiency by foveating input images. Given an image and a point prompt, we extract a crop centered on the prompt and apply a novel variable-resolution patch tokenization in which patches are downsampled at a rate that increases with increased distance from the prompt. This approach yields far fewer image tokens than uniform patch tokenization. As a result we can drastically reduce the computational cost of segmentation without reducing model size. Furthermore, the foveation focuses the model on the region of interest, a potentially useful inductive bias. We show that our Segment This Thing model is more efficient than prior work while remaining competitive on segmentation benchmarks. It can easily run at interactive frame rates on consumer hardware and is thus a promising tool for augmented reality or robotics applications.
- Abstract(参考訳): 本稿では,一点プロンプトを与えられた単一セグメントを生成するために設計された,新しい効率的な画像分割モデルであるSegment This Thing (STT)を提案する。
モデルサイズを小さくすることで、事前の作業に追従して効率を向上する代わりに、入力画像のファーベレーションにより効率を上げる。
画像とポイントプロンプトが与えられた場合、プロンプト中心の作物を抽出し、プロンプトからの距離が増加するにつれてパッチがダウンサンプリングされる新しい可変解像度パッチトークン化を適用する。
このアプローチにより、均一なパッチトークン化よりもはるかに少ない画像トークンが得られる。
その結果、モデルのサイズを小さくすることなく、セグメント化の計算コストを大幅に削減できる。
さらに、フェーベーションは、潜在的に有用な帰納バイアスである関心領域のモデルに焦点を当てている。
セグメンテーションベンチマークでは競争力を維持しながら、我々のセグメンション・This Thingモデルは以前の作業よりも効率的であることを示す。
消費者向けハードウェア上では、対話的なフレームレートで容易に動かせるので、拡張現実やロボティクスのアプリケーションには有望なツールだ。
関連論文リスト
- A Good Foundation is Worth Many Labels: Label-Efficient Panoptic Segmentation [22.440065488051047]
ロボット知覚に学習ベースのモデルを広く応用する上での課題は、注釈付きトレーニングデータの必要量を大幅に削減することである。
視覚基礎モデルにより舗装された基礎を生かし、セマンティックセグメンテーションとオブジェクト境界検出のために2つの軽量ネットワークヘッドを訓練する。
PASTELはアノテーションが少なくてもラベル効率の良いセグメンテーションの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T12:23:29Z) - Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - NubbleDrop: A Simple Way to Improve Matching Strategy for Prompted One-Shot Segmentation [2.2559617939136505]
マッチング戦略の有効性とロバスト性を高めるための,単純で訓練のない手法を提案する。
中心となる概念は、マッチングプロセス中にランダムに特徴チャネル(0に設定する)をドロップすることである。
この手法は、病理的なヌブルの破棄を模倣し、他の類似性コンピューティングのシナリオにシームレスに適用することができる。
論文 参考訳(メタデータ) (2024-05-19T08:00:38Z) - SPPNet: A Single-Point Prompt Network for Nuclei Image Segmentation [6.149725843029721]
核画像分割のためのシングルポイントプロンプトネットワークを提案する。
オリジナル画像エンコーダを軽量な視覚変換器に置き換える。
提案モデルはMoNuSeg-2018データセットで評価される。
論文 参考訳(メタデータ) (2023-08-23T16:13:58Z) - Towards Reliable Evaluation and Fast Training of Robust Semantic Segmentation Models [47.03411822627386]
我々は,mIoUとmIoUの精度の異なる指標を最小化する,いくつかの問題固有の新規攻撃を提案する。
驚くべきことに、セマンティックセグメンテーションモデルに対する既存の敵の訓練の試みは、弱かったり、全く損なわれなかったりする。
最近提案された堅牢なImageNetバックボーンを用いて,PASCAL-VOCとADE20kの最大6倍のトレーニング時間を持つ,対向的に堅牢なセマンティックセマンティックセマンティクスモデルを得ることができることを示す。
論文 参考訳(メタデータ) (2023-06-22T14:56:06Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。