Fugu-MT 論文翻訳(概要): Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images

論文の概要: Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images

arxiv url: http://arxiv.org/abs/2408.06755v1
Date: Tue, 13 Aug 2024 09:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 18:07:02.997092
Title: Sumotosima: A Framework and Dataset for Classifying and Summarizing Otoscopic Images
Title（参考訳）: Sumotosima: 眼底画像の分類と要約のためのフレームワークとデータセット
Authors: Eram Anwarul Khan, Anas Anwarul Haq Khan,
Abstract要約: オトスコープ(Otoscopy)は、耳管と耳栓を内視鏡で検査する診断法である。本研究では,新しい資源効率のよいディープラーニングとトランスフォーマーベースのフレームワークSumotosimaを提案する。私たちのフレームワークは、三重項とクロスエントロピー損失の組み合わせに取り組んでいます。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Otoscopy is a diagnostic procedure to examine the ear canal and eardrum using an otoscope. It identifies conditions like infections, foreign bodies, ear drum perforations and ear abnormalities. We propose a novel resource efficient deep learning and transformer based framework, Sumotosima (Summarizer for otoscopic images), an end-to-end pipeline for classification followed by summarization. Our framework works on combination of triplet and cross-entropy losses. Additionally, we use Knowledge Enhanced Multimodal BART whose input is fused textual and image embedding. The objective is to provide summaries that are well-suited for patients, ensuring clarity and efficiency in understanding otoscopic images. Given the lack of existing datasets, we have curated our own OCASD (Otoscopic Classification And Summary Dataset), which includes 500 images with 5 unique categories annotated with their class and summaries by Otolaryngologists. Sumotosima achieved a result of 98.03%, which is 7.00%, 3.10%, 3.01% higher than K-Nearest Neighbors, Random Forest and Support Vector Machines, respectively, in classification tasks. For summarization, Sumotosima outperformed GPT-4o and LLaVA by 88.53% and 107.57% in ROUGE scores, respectively. We have made our code and dataset publicly available at https://github.com/anas2908/Sumotosima
Abstract（参考訳）: オトスコープ(Otoscopy)は、耳管と耳栓を内視鏡で検査する診断法である。感染、異物、耳のドラムの穿孔、耳の異常などの症状を識別する。本稿では,新しい資源効率のよい深層学習・変圧器ベースのフレームワークSumotosimaを提案する。私たちのフレームワークは、三重項とクロスエントロピー損失の組み合わせに取り組んでいます。さらに,テキストと画像の埋め込みを融合したKnowledge Enhanced Multimodal BARTを使用する。本研究の目的は, 患者に適した要約を提供することであり, 内視鏡画像の理解において, 明瞭さと効率性を確保することである。既存のデータセットが欠如していることを踏まえ,我々は独自のOCASD (Otoscopic Classification And Summary Dataset) をキュレートした。スモトシマは98.03%を達成し、これはK-Nearest Neighbors、Random Forest、Support Vector Machinesよりも7.00%、3.10%、3.01%高い。要約すると、スモトシマはGPT-4oとLLaVAを88.53%、ROUGEスコアは107.57%で上回った。私たちはコードとデータセットをhttps://github.com/anas2908/Sumotosimaで公開しました。

関連論文リスト

BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification [0.6840587119863303]
我々は,脳腫瘍のセグメンテーションと分類タスクのためのデータセットであるBRISCを紹介し,高分解能セグメンテーションマスクを特徴とする。データセットは6000のコントラスト強化T1強調MRIスキャンで構成され、セグメンテーションラベルを欠いた複数の公開データセットから照合された。悪性腫瘍としてはグリオーマ、髄膜腫、下垂体腫瘍の3種類と非腫瘍の3種類がある。
論文参考訳（メタデータ） (2025-06-17T08:56:05Z)
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では,データ合成における生成モデルの利用について検討する。本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
LSD3K: A Benchmark for Smoke Removal from Laparoscopic Surgery Images [0.7138611948315257]
腹腔鏡下手術で手術器具が生み出す煙は視野を曖昧にし、外科医が正確に安全に手術を行う能力を損なう。近年、腹腔鏡画像の喫煙が研究者の注目を集めているが、このタスクの開発を妨害する主要なボトルネックは、公開可能な高品質なベンチマークデータセットの欠如である。我々は, 3000対の合成非均一煙像からなる, LSD3Kと呼ばれる腹腔鏡下手術画像デスモーキングのための新しい高品質データセットを構築した。
論文参考訳（メタデータ） (2024-07-18T03:42:16Z)
WATUNet: A Deep Neural Network for Segmentation of Volumetric Sweep Imaging Ultrasound [1.2903292694072621]
ボリューム・スイープ・イメージング(VSI)は、訓練を受けていないオペレーターが高品質な超音波画像をキャプチャできる革新的な手法である。本稿ではWavelet_Attention_UNet(WATUNet)と呼ばれる新しいセグメンテーションモデルを提案する。このモデルでは、簡単な接続ではなく、ウェーブレットゲート(WG)とアテンションゲート(AG)をエンコーダとデコーダの間に組み込んで、上記の制限を克服する。
論文参考訳（メタデータ） (2023-11-17T20:32:37Z)
Breast Ultrasound Tumor Classification Using a Hybrid Multitask CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文参考訳（メタデータ） (2023-08-04T01:19:32Z)
A Knowledge Distillation framework for Multi-Organ Segmentation of Medaka Fish in Tomographic Image [5.881800919492064]
メダカ魚のトモグラフィー画像における多臓器セグメンテーションのための自己学習フレームワークを提案する。本研究では,事前訓練されたモデルから得られた擬似ラベルデータを利用して,擬似ラベルデータを洗練するために品質教師を採用する。実験結果から,本手法は全データセット上で平均IoU(Intersection over Union)を5.9%改善することが示された。
論文参考訳（メタデータ） (2023-02-24T10:31:29Z)
Information Gain Sampling for Active Learning in Medical Image Classification [3.1619162190378787]
本研究は,ラベル付け対象プールからの最適な画像選択を誘導する情報理論のアクティブラーニングフレームワークを提案する。 2つの異なる医用画像分類データセットで実験を行う。
論文参考訳（メタデータ） (2022-08-01T16:25:53Z)
Robust Medical Image Classification from Noisy Labeled Data with Global and Local Representation Guided Co-training [73.60883490436956]
本稿では,ロバストな医用画像分類のためのグローバルおよびローカルな表現学習を用いた新しい協調学習パラダイムを提案する。ノイズラベルフィルタを用いた自己アンサンブルモデルを用いて、クリーンでノイズの多いサンプルを効率的に選択する。また,ネットワークを暗黙的に正規化してノイズの多いサンプルを利用するための,グローバルかつ局所的な表現学習手法を設計する。
論文参考訳（メタデータ） (2022-05-10T07:50:08Z)
FedMed-ATL: Misaligned Unpaired Brain Image Synthesis via Affine Transform Loss [58.58979566599889]
脳画像合成のための新しい自己教師型学習(FedMed)を提案する。アフィン変換損失(ATL)は、プライバシー法に違反することなく、ひどく歪んだ画像を使用するように定式化された。提案手法は, 極めて不整合かつ不整合なデータ設定下での合成結果の品質の両方において, 高度な性能を示す。
論文参考訳（メタデータ） (2022-01-29T13:45:39Z)
Weakly-supervised Generative Adversarial Networks for medical image classification [1.479639149658596]
Weakly-Supervised Generative Adversarial Networks (WSGAN) と呼ばれる新しい医用画像分類アルゴリズムを提案する。 WSGANは、ラベルのない少数の実画像のみを使用して、偽画像やマスク画像を生成し、トレーニングセットのサンプルサイズを拡大する。ラベル付きデータやラベルなしデータの少ない使用により,WSGANは比較的高い学習性能が得られることを示す。
論文参考訳（メタデータ） (2021-11-29T15:38:48Z)
Deep ensembles based on Stochastic Activation Selection for Polyp Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文参考訳（メタデータ） (2021-04-02T02:07:37Z)
Comparisons among different stochastic selection of activation layers for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。 ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文参考訳（メタデータ） (2020-11-24T01:53:39Z)
ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。 ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文参考訳（メタデータ） (2020-06-24T04:05:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。