論文の概要: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2401.04403v1
- Date: Tue, 9 Jan 2024 07:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:17:50.475908
- Title: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- Title(参考訳): MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン
- Authors: Long Xu, Shanghong Li, Yongquan Chen, Jun Luo
- Abstract要約: 本稿では,様々なターゲットサイズにまたがるセグメンテーションを強化するために,新しいマルチスケールトークン適応アルゴリズムを提案する。
目標トークンと背景トークンの識別性を向上し、目標と類似したトークンの正しさとロバスト性を向上させるために、対照的な損失が導入された。
このアルゴリズムは現在の手法と比較して最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 9.251708981974403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Industrial Informatics, interactive segmentation has gained
significant attention for its application in human-computer interaction and
data annotation. Existing algorithms, however, face challenges in balancing the
segmentation accuracy between large and small targets, often leading to an
increased number of user interactions. To tackle this, a novel multi-scale
token adaptation algorithm, leveraging token similarity, has been devised to
enhance segmentation across varying target sizes. This algorithm utilizes a
differentiable top-k tokens selection mechanism, allowing for fewer tokens to
be used while maintaining efficient multi-scale token interaction. Furthermore,
a contrastive loss is introduced to better discriminate between target and
background tokens, improving the correctness and robustness of the tokens
similar to the target. Extensive benchmarking shows that the algorithm achieves
state-of-the-art (SOTA) performance compared to current methods. An interactive
demo and all reproducible codes will be released at
https://github.com/hahamyt/mst.
- Abstract(参考訳): インフォマティクスの分野では、対話的セグメンテーションが人間とコンピュータの相互作用とデータアノテーションへの応用で注目されている。
しかし、既存のアルゴリズムでは、大きなターゲットと小さなターゲットのセグメンテーションの精度のバランスが難しいため、ユーザーインタラクションの数が増加することが多い。
これを解決するために、トークン類似性を利用した新しいマルチスケールトークン適応アルゴリズムが考案され、様々なターゲットサイズにまたがるセグメンテーションを強化する。
このアルゴリズムは差別化可能なトップkトークン選択機構を利用し、効率的なマルチスケールトークンインタラクションを維持しながら、より少ないトークンを使用することができる。
さらに、目標トークンと背景トークンの判別性を向上させるために、対照損失が導入され、目標と類似したトークンの正確性と堅牢性が向上する。
大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。
インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。
関連論文リスト
- Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision [33.59153869330463]
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
我々の貢献は、稀な相互作用のケースをエンコードするためのエラー訂正符号(ECC)の適用を含む。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
論文 参考訳(メタデータ) (2024-08-13T16:34:06Z) - Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation [12.249546377051438]
トークンマージは、画像分類タスクにおける推論速度、トレーニング効率、メモリ利用の大幅な向上を示した。
本稿では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。
論文 参考訳(メタデータ) (2024-05-23T11:54:27Z) - Semantic Equitable Clustering: A Simple, Fast and Effective Strategy for Vision Transformer [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
我々は、textbf27Mパラメータと textbf4.4G FLOPs のみを用いて、印象的な textbf84.2% 画像分類精度が得られる多用途視覚バックボーン SecViT を提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。