論文の概要: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2401.04403v2
- Date: Sat, 3 Feb 2024 03:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 03:17:12.391951
- Title: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- Title(参考訳): MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン
- Authors: Long Xu, Shanghong Li, Yongquan Chen, Jun Luo, Shiwu Lai
- Abstract要約: 対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.46894039954642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive segmentation has gained significant attention for its application
in human-computer interaction and data annotation. To address the target scale
variation issue in interactive segmentation, a novel multi-scale token
adaptation algorithm is proposed. By performing top-k operations across
multi-scale tokens, the computational complexity is greatly simplified while
ensuring performance. To enhance the robustness of multi-scale token selection,
we also propose a token learning algorithm based on contrastive loss. This
algorithm can effectively improve the performance of multi-scale token
adaptation. Extensive benchmarking shows that the algorithm achieves
state-of-the-art (SOTA) performance, compared to current methods. An
interactive demo and all reproducible codes will be released at
https://github.com/hahamyt/mst.
- Abstract(参考訳): 対話的セグメンテーションは、人間とコンピュータのインタラクションやデータアノテーションへの応用において大きな注目を集めている。
対話的セグメンテーションにおけるターゲットスケール変動問題に対処するために,新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンをまたいでトップk操作を行うことで、計算の複雑さは性能を確保しながら大幅に単純化される。
また,マルチスケールトークン選択のロバスト性を高めるため,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
このアルゴリズムは、マルチスケールトークン適応の性能を効果的に改善することができる。
大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。
インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。
関連論文リスト
- Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation [12.249546377051438]
トークンマージは、画像分類タスクにおける推論速度、トレーニング効率、メモリ利用の大幅な向上を示した。
本稿では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。
論文 参考訳(メタデータ) (2024-05-23T11:54:27Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。