論文の概要: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2401.04403v1
- Date: Tue, 9 Jan 2024 07:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:17:50.475908
- Title: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
- Title(参考訳): MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン
- Authors: Long Xu, Shanghong Li, Yongquan Chen, Jun Luo
- Abstract要約: 本稿では,様々なターゲットサイズにまたがるセグメンテーションを強化するために,新しいマルチスケールトークン適応アルゴリズムを提案する。
目標トークンと背景トークンの識別性を向上し、目標と類似したトークンの正しさとロバスト性を向上させるために、対照的な損失が導入された。
このアルゴリズムは現在の手法と比較して最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 9.251708981974403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Industrial Informatics, interactive segmentation has gained
significant attention for its application in human-computer interaction and
data annotation. Existing algorithms, however, face challenges in balancing the
segmentation accuracy between large and small targets, often leading to an
increased number of user interactions. To tackle this, a novel multi-scale
token adaptation algorithm, leveraging token similarity, has been devised to
enhance segmentation across varying target sizes. This algorithm utilizes a
differentiable top-k tokens selection mechanism, allowing for fewer tokens to
be used while maintaining efficient multi-scale token interaction. Furthermore,
a contrastive loss is introduced to better discriminate between target and
background tokens, improving the correctness and robustness of the tokens
similar to the target. Extensive benchmarking shows that the algorithm achieves
state-of-the-art (SOTA) performance compared to current methods. An interactive
demo and all reproducible codes will be released at
https://github.com/hahamyt/mst.
- Abstract(参考訳): インフォマティクスの分野では、対話的セグメンテーションが人間とコンピュータの相互作用とデータアノテーションへの応用で注目されている。
しかし、既存のアルゴリズムでは、大きなターゲットと小さなターゲットのセグメンテーションの精度のバランスが難しいため、ユーザーインタラクションの数が増加することが多い。
これを解決するために、トークン類似性を利用した新しいマルチスケールトークン適応アルゴリズムが考案され、様々なターゲットサイズにまたがるセグメンテーションを強化する。
このアルゴリズムは差別化可能なトップkトークン選択機構を利用し、効率的なマルチスケールトークンインタラクションを維持しながら、より少ないトークンを使用することができる。
さらに、目標トークンと背景トークンの判別性を向上させるために、対照損失が導入され、目標と類似したトークンの正確性と堅牢性が向上する。
大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。
インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。
関連論文リスト
- Dynamic Token Pruning in Plain Vision Transformers for Semantic
Segmentation [18.168932826183024]
本研究では,意味的セグメンテーションのためのトークンの早期終了に基づく動的トークン処理(DToP)手法を提案する。
実験により、提案したDToPアーキテクチャは、現在のセマンティックセグメンテーション手法の計算コストを平均20%から35%削減することを示唆している。
論文 参考訳(メタデータ) (2023-08-02T09:40:02Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Multi-level Contrast Network for Wearables-based Joint Activity
Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。
ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。
我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文 参考訳(メタデータ) (2022-08-16T05:39:02Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。