論文の概要: The intersection of video capsule endoscopy and artificial intelligence:
addressing unique challenges using machine learning
- arxiv url: http://arxiv.org/abs/2308.13035v1
- Date: Thu, 24 Aug 2023 19:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:01:11.544473
- Title: The intersection of video capsule endoscopy and artificial intelligence:
addressing unique challenges using machine learning
- Title(参考訳): ビデオカプセル内視鏡と人工知能の交点--機械学習を用いたユニークな課題への対処
- Authors: Shan Guleria, Benjamin Schwartz, Yash Sharma, Philip Fernandes, James
Jablonski, Sodiq Adewole, Sanjana Srivastava, Fisher Rhoads, Michael Porter,
Michelle Yeghyayan, Dylan Hyatt, Andrew Copland, Lubaina Ehsan, Donald Brown,
Sana Syed
- Abstract要約: カプセル内視鏡(VCE)データの分類には,5つの課題がある。
解剖学的ランドマーク検出モデルは、タスクへの畳み込みニューラルネットワーク(CNN)の適用をテストするために使用された。
CNNは解剖学的ランドマーク(99.1%が重み付けされたクラスのアクティベーションマッピング)を正確に識別した。
- 参考スコア(独自算出の注目度): 2.420088076649769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Technical burdens and time-intensive review processes limit the
practical utility of video capsule endoscopy (VCE). Artificial intelligence
(AI) is poised to address these limitations, but the intersection of AI and VCE
reveals challenges that must first be overcome. We identified five challenges
to address. Challenge #1: VCE data are stochastic and contains significant
artifact. Challenge #2: VCE interpretation is cost-intensive. Challenge #3: VCE
data are inherently imbalanced. Challenge #4: Existing VCE AIMLT are
computationally cumbersome. Challenge #5: Clinicians are hesitant to accept
AIMLT that cannot explain their process.
Methods: An anatomic landmark detection model was used to test the
application of convolutional neural networks (CNNs) to the task of classifying
VCE data. We also created a tool that assists in expert annotation of VCE data.
We then created more elaborate models using different approaches including a
multi-frame approach, a CNN based on graph representation, and a few-shot
approach based on meta-learning.
Results: When used on full-length VCE footage, CNNs accurately identified
anatomic landmarks (99.1%), with gradient weighted-class activation mapping
showing the parts of each frame that the CNN used to make its decision. The
graph CNN with weakly supervised learning (accuracy 89.9%, sensitivity of
91.1%), the few-shot model (accuracy 90.8%, precision 91.4%, sensitivity
90.9%), and the multi-frame model (accuracy 97.5%, precision 91.5%, sensitivity
94.8%) performed well. Discussion: Each of these five challenges is addressed,
in part, by one of our AI-based models. Our goal of producing high performance
using lightweight models that aim to improve clinician confidence was achieved.
- Abstract(参考訳): 導入: 技術的負担と時間集約的レビュープロセスは, ビデオカプセル内視鏡(VCE)の実用性を制限する。
人工知能(AI)はこれらの制限に対処しようとしているが、AIとVCEの交差点は最初に克服しなければならない課題を明らかにしている。
私たちは対処すべき課題を5つ挙げた。
チャレンジ#1: VCEデータは確率的であり、重要なアーティファクトを含んでいる。
チャレンジ2: VCEの解釈はコストがかかる。
チャレンジ3: VCEデータは本質的に不均衡である。
チャレンジ#4:既存のVCE AIMLTは計算に煩雑である。
チャレンジ5: 臨床医は、自分のプロセスを説明することができないAIMLTを受け入れることをためらっている。
方法: VCEデータの分類作業に対する畳み込みニューラルネットワーク(CNN)の適用をテストするために,解剖学的ランドマーク検出モデルを用いた。
また、VCEデータのエキスパートアノテーションを支援するツールも作成しました。
次に、マルチフレームアプローチ、グラフ表現に基づくCNN、メタ学習に基づく数ショットアプローチなど、さまざまなアプローチを用いたより精巧なモデルを作成しました。
結果: フル長VCE映像で使用する場合、CNNは解剖学的ランドマーク(99.1%)を正確に識別し、CNNが決定に用いた各フレームの部分を示す勾配重み付きクラスのアクティベーションマッピングを作成した。
教師付き学習(精度89.9%、感度91.1%)、マイショットモデル(精度90.8%、精度91.4%、感度90.9%)、マルチフレームモデル(精度97.5%、精度91.5%、感度94.8%)は良好であった。
議論: これらの5つの課題のうちの1つは、AIベースのモデルによって対処されます。
臨床の信頼性向上を目的とした軽量モデルによる高性能化を目標とした。
関連論文リスト
- DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Pain Analysis using Adaptive Hierarchical Spatiotemporal Dynamic Imaging [16.146223377936035]
本稿では,適応時間動画像(Adaptive temporal Dynamic Image, AHDI)技術を紹介する。
AHDIは、顔ビデオの深い変化を特異なRGB画像にエンコードし、ビデオ表現のためのより単純な2Dモデルを実現する。
この枠組み内では、一般化された顔表現を導出するために残差ネットワークを用いる。
これらの表現は、痛みの強さを推定し、本物の痛み表現とシミュレートされた痛み表現を区別する2つのタスクに最適化される。
論文 参考訳(メタデータ) (2023-12-12T01:23:05Z) - LoRA-like Calibration for Multimodal Deception Detection using ATSFace
Data [1.550120821358415]
本稿では,ビデオデータや誤認識のダイナミクスに固有の課題に対処する,注意を意識したニューラルネットワークを提案する。
我々は、精度を高めるマルチモーダル融合戦略を採用し、実生活の試行データセット上で92%の精度で精度を向上する。
論文 参考訳(メタデータ) (2023-09-04T06:22:25Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Improving COVID-19 CT Classification of CNNs by Learning
Parameter-Efficient Representation [31.51725965329019]
深層学習法は, コンピュータ断層撮影による新型コロナウイルスの自動診断を支援するために提案されている。
DenseNet121は、正常、非COVID-19肺炎、COVID-19肺炎を含む3つのカテゴリーの分類で、平均99.44%の検査精度を達成している。
論文 参考訳(メタデータ) (2022-08-09T12:24:53Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - More Reliable AI Solution: Breast Ultrasound Diagnosis Using Multi-AI
Combination [1.3357122589980752]
AIシステムに埋め込まれた既存のマシンは、臨床医が期待する精度に達しない。
超解像ネットワークは、デバイス自体による超音波画像の不明瞭さを低減する。
対象モデルを分類モデルに変換する2つの方法を提案する。
論文 参考訳(メタデータ) (2021-01-07T17:19:00Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Combining Deep Transfer Learning with Signal-image Encoding for
Multi-Modal Mental Wellbeing Classification [2.513785998932353]
本稿では,複数のマルチモーダルデータセット上で感情状態認識を行う際の限界に対処する枠組みを提案する。
5-point Likertスケールで評価された実世界の幸福度を推定する際のモデル性能は,我々のフレームワークを用いて向上できることを示す。
論文 参考訳(メタデータ) (2020-11-20T13:37:23Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。