論文の概要: TongueSAM: An Universal Tongue Segmentation Model Based on SAM with
Zero-Shot
- arxiv url: http://arxiv.org/abs/2308.06444v2
- Date: Wed, 18 Oct 2023 12:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:39:19.061874
- Title: TongueSAM: An Universal Tongue Segmentation Model Based on SAM with
Zero-Shot
- Title(参考訳): TongueSAM:zero-Shotを用いたSAMに基づくユニバーサルトングセグメンテーションモデル
- Authors: Shan Cao, Qunsheng Ruan and Qingfeng Wu
- Abstract要約: 舌分節はTCM舌の自動診断の第一段階である。
本稿では SAM (Segment Anything Model) に基づく舌分割モデル TongueSAM を提案する。
- 参考スコア(独自算出の注目度): 3.40235870551467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tongue segmentation serves as the primary step in automated TCM tongue
diagnosis, which plays a significant role in the diagnostic results. Currently,
numerous deep learning based methods have achieved promising results. However,
when confronted with tongue images that differ from the training set or possess
challenging backgrounds, these methods demonstrate limited performance. To
address this issue, this paper proposes a universal tongue segmentation model
named TongueSAM based on SAM (Segment Anything Model). SAM is a large-scale
pretrained interactive segmentation model known for its powerful zero-shot
generalization capability. Applying SAM to tongue segmentation leverages its
learned prior knowledge from natural images, enabling the achievement of
zero-shot segmentation for various types of tongue images. In this study, a
Prompt Generator based on object detection is integrated into SAM to enable an
end-to-end automated tongue segmentation method. Experiments demonstrate that
TongueSAM achieves exceptional performance across various of tongue
segmentation datasets, particularly under zero-shot. Even when dealing with
challenging background tongue images, TongueSAM achieves a mIoU of 95.23\%
under zero-shot conditions, surpassing other segmentation methods. As far as we
know, this is the first application of large-scale pretrained model for tongue
segmentation. The project and pretrained model will be made public when the
paper is accepted.
- Abstract(参考訳): 舌分節はtcm舌の自動診断の第一段階であり, 診断結果において重要な役割を担っている。
現在、多くのディープラーニングベースの手法が有望な結果を得ている。
しかし、トレーニングセットと異なる、あるいは課題のある背景を持つ舌画像と向き合うと、これらの手法は限られた性能を示す。
そこで本研究では,SAM(Segment Anything Model)に基づく舌分割モデルTongueSAMを提案する。
SAMは、その強力なゼロショット一般化能力で知られている大規模な事前訓練された対話的セグメンテーションモデルである。
SAMを舌のセグメンテーションに適用することは、自然画像から学んだ知識を活用し、様々な種類の舌画像に対するゼロショットセグメンテーションの達成を可能にする。
本研究では,物体検出に基づくプロンプトジェネレータをSAMに統合し,エンドツーエンドの自動舌分割法を実現する。
TongueSAMは、特にゼロショット下で、様々な舌のセグメンテーションデータセットで例外的なパフォーマンスを達成している。
難しい背景舌画像を扱う場合でも、ランサムは他のセグメンテーション法を上回って、ゼロショット条件下で95.23\%のmiouを達成する。
われわれが知る限り、これは舌分割のための大規模事前訓練モデルの最初の応用である。
プロジェクトと事前訓練されたモデルは、論文が受け入れられると公表される。
関連論文リスト
- Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) [8.529233820032678]
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-14T11:05:08Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Input Augmentation with SAM: Boosting Medical Image Segmentation with
Segmentation Foundation Model [36.015065439244495]
Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。
SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。
本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。
論文 参考訳(メタデータ) (2023-04-22T07:11:53Z) - SAM.MD: Zero-shot medical image segmentation capabilities of the Segment
Anything Model [1.1221592576472588]
医用画像のセグメンテーションにおけるセグメンテーションモデル(Segment Anything Model)のゼロショット機能の評価を行った。
SAMはCTデータによく対応し,半自動セグメンテーションツールの進歩の触媒となる可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-10T18:20:29Z) - Segment Anything Model (SAM) for Digital Pathology: Assess Zero-shot
Segmentation on Whole Slide Imaging [12.533476185972527]
画像セグメンテーションの基礎モデルとしてセグメンテーションモデル(SAM)がリリースされた。
スライド画像全体(WSI)における代表セグメンテーションタスクにおけるSAMモデルのゼロショットセグメンテーション性能を評価する。
その結果,0ショットSAMモデルは大きな連結オブジェクトに対して顕著なセグメンテーション性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-04-09T04:06:59Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。