Fugu-MT 論文翻訳(概要): MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation

論文の概要: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation

arxiv url: http://arxiv.org/abs/2401.04403v1
Date: Tue, 9 Jan 2024 07:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 16:17:50.475908
Title: MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
Title（参考訳）: MST: インタラクティブセグメンテーションによる適応型マルチスケールトークン
Authors: Long Xu, Shanghong Li, Yongquan Chen, Jun Luo
Abstract要約: 本稿では,様々なターゲットサイズにまたがるセグメンテーションを強化するために,新しいマルチスケールトークン適応アルゴリズムを提案する。目標トークンと背景トークンの識別性を向上し、目標と類似したトークンの正しさとロバスト性を向上させるために、対照的な損失が導入された。このアルゴリズムは現在の手法と比較して最先端(SOTA)性能を実現する。
参考スコア（独自算出の注目度）: 9.251708981974403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of Industrial Informatics, interactive segmentation has gained significant attention for its application in human-computer interaction and data annotation. Existing algorithms, however, face challenges in balancing the segmentation accuracy between large and small targets, often leading to an increased number of user interactions. To tackle this, a novel multi-scale token adaptation algorithm, leveraging token similarity, has been devised to enhance segmentation across varying target sizes. This algorithm utilizes a differentiable top-k tokens selection mechanism, allowing for fewer tokens to be used while maintaining efficient multi-scale token interaction. Furthermore, a contrastive loss is introduced to better discriminate between target and background tokens, improving the correctness and robustness of the tokens similar to the target. Extensive benchmarking shows that the algorithm achieves state-of-the-art (SOTA) performance compared to current methods. An interactive demo and all reproducible codes will be released at https://github.com/hahamyt/mst.
Abstract（参考訳）: インフォマティクスの分野では、対話的セグメンテーションが人間とコンピュータの相互作用とデータアノテーションへの応用で注目されている。しかし、既存のアルゴリズムでは、大きなターゲットと小さなターゲットのセグメンテーションの精度のバランスが難しいため、ユーザーインタラクションの数が増加することが多い。これを解決するために、トークン類似性を利用した新しいマルチスケールトークン適応アルゴリズムが考案され、様々なターゲットサイズにまたがるセグメンテーションを強化する。このアルゴリズムは差別化可能なトップkトークン選択機構を利用し、効率的なマルチスケールトークンインタラクションを維持しながら、より少ないトークンを使用することができる。さらに、目標トークンと背景トークンの判別性を向上させるために、対照損失が導入され、目標と類似したトークンの正確性と堅牢性が向上する。大規模なベンチマークでは、現在の手法と比較して、アルゴリズムが最先端(SOTA)のパフォーマンスを達成することが示されている。インタラクティブなデモとすべての再現可能なコードは、https://github.com/hahamyt/mstで公開される。

関連論文リスト

Evaluation framework for Image Segmentation Algorithms [0.0]
本稿では,画像セグメンテーションの基本概念と重要性と,精度向上における対話的セグメンテーションの役割を紹介する。詳細な背景理論セクションでは、しきい値、エッジ検出、領域の成長、特徴抽出、ランダムフォレスト、サポートベクターマシン、畳み込みニューラルネットワーク、U-Net、Mask R-CNNなど、さまざまなセグメンテーション手法が検討されている。比較分析では、それぞれの手法の強み、限界、トレードオフを強調し、詳細な結果を示す。
論文参考訳（メタデータ） (2025-04-06T10:20:26Z)
Multi-scale Feature Enhancement in Multi-task Learning for Medical Image Analysis [1.6916040234975798]
医用画像における伝統的な深層学習法は、分割や分類にのみ焦点をあてることが多い。このモデルでは,デコーダがセグメント化マスクを生成するのに対して,エンコーダによって抽出された特徴を分類ラベルの予測に利用する。複数の医療データセットにまたがる実験結果から, セグメンテーションタスクと分類タスクの両方において, モデルの優れた性能が確認された。
論文参考訳（メタデータ） (2024-11-30T04:20:05Z)
Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation [12.249546377051438]
トークンマージは、画像分類タスクにおける推論速度、トレーニング効率、メモリ利用の大幅な向上を示した。本稿では,資源制約のあるデバイスやリアルタイムアプリケーションへのトランスフォーマーアーキテクチャの展開を容易にする。
論文参考訳（メタデータ） (2024-05-23T11:54:27Z)
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文参考訳（メタデータ） (2024-05-22T04:49:00Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Multi-level Contrast Network for Wearables-based Joint Activity Segmentation and Recognition [10.828099015828693]
ウェアラブルを用いたヒューマンアクティビティ認識(HAR)は、多くのスマートヘルスケアアプリケーションで広く採用可能な、有望な研究である。ほとんどのHARアルゴリズムは、必要不可欠なが滅多に悪用されないマルチクラスウィンドウ問題の影響を受けやすい。我々は,HARにセグメンテーション技術を導入し,共同活動セグメンテーションと認識を実現した。
論文参考訳（メタデータ） (2022-08-16T05:39:02Z)
CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文参考訳（メタデータ） (2022-05-02T12:02:09Z)
Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文参考訳（メタデータ） (2021-07-25T11:39:58Z)
Reviving Iterative Training with Mask Guidance for Interactive Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。 COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文参考訳（メタデータ） (2021-02-12T15:44:31Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。 5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2020-07-17T15:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。