論文の概要: A reinforcement learning approach for VQA validation: an application to
diabetic macular edema grading
- arxiv url: http://arxiv.org/abs/2307.09886v1
- Date: Wed, 19 Jul 2023 10:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:26:47.167200
- Title: A reinforcement learning approach for VQA validation: an application to
diabetic macular edema grading
- Title(参考訳): VQA検証のための強化学習アプローチ:糖尿病黄斑浮腫評価への応用
- Authors: Tatiana Fountoukidou and Raphael Sznitman
- Abstract要約: 非常に強力なVisual Question Answering (VQA)アルゴリズムに対して、よりリッチでより適切な検証アプローチを提供することに注力する。
本稿では,VQAアルゴリズムの推論動作を明らかにすることを目的とした自動適応質問手法を提案する。
実験により、そのようなエージェントは臨床医と同じような振る舞いを示し、主要な臨床概念に関連する質問を行う。
- 参考スコア(独自算出の注目度): 2.368995563245609
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in machine learning models have greatly increased the
performance of automated methods in medical image analysis. However, the
internal functioning of such models is largely hidden, which hinders their
integration in clinical practice. Explainability and trust are viewed as
important aspects of modern methods, for the latter's widespread use in
clinical communities. As such, validation of machine learning models represents
an important aspect and yet, most methods are only validated in a limited way.
In this work, we focus on providing a richer and more appropriate validation
approach for highly powerful Visual Question Answering (VQA) algorithms. To
better understand the performance of these methods, which answer arbitrary
questions related to images, this work focuses on an automatic visual Turing
test (VTT). That is, we propose an automatic adaptive questioning method, that
aims to expose the reasoning behavior of a VQA algorithm. Specifically, we
introduce a reinforcement learning (RL) agent that observes the history of
previously asked questions, and uses it to select the next question to pose. We
demonstrate our approach in the context of evaluating algorithms that
automatically answer questions related to diabetic macular edema (DME) grading.
The experiments show that such an agent has similar behavior to a clinician,
whereby asking questions that are relevant to key clinical concepts.
- Abstract(参考訳): 機械学習モデルの最近の進歩は、医療画像解析における自動化手法の性能を大きく向上させた。
しかし、これらのモデルの内部機能はほとんど隠れており、臨床実践への統合を妨げている。
説明可能性と信頼は現代の方法の重要な側面と見なされ、後者は臨床コミュニティで広く利用されている。
そのため、機械学習モデルの検証は重要な側面であるが、ほとんどのメソッドは限定的な方法でのみ検証される。
本研究では,vqa(high powerful visual question answering)アルゴリズムに対して,よりリッチでより適切な検証手法を提供することに着目する。
画像に関する任意の質問に答えるこれらの手法の性能をよりよく理解するために、この研究は自動視覚チューリングテスト(VTT)に焦点を当てている。
すなわち,VQAアルゴリズムの推論動作を明らかにすることを目的とした自動適応質問手法を提案する。
具体的には、以前に質問された質問の歴史を観察する強化学習(RL)エージェントを導入し、それを用いて次の質問を選択する。
我々は,糖尿病性黄斑浮腫(DME)のグレーディングに関する質問に自動的に答えるアルゴリズムの評価の文脈において,我々のアプローチを実証する。
実験により,このような薬剤は臨床医と類似した行動を示し,重要な臨床概念に関連する質問を行う。
関連論文リスト
- Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering [3.983863335432589]
コンピュータビジョンと自然言語処理の交差点では,MedVQA (MedVQA) が注目されている。
本稿では,オリゴニティ損失,マルチヘッドアテンション,双線形アテンションネットワーク(OMniBAN)を統合した新しい融合モデルを提案する。
論文 参考訳(メタデータ) (2024-10-28T13:24:12Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - Morphology-Aware Interactive Keypoint Estimation [32.52024944963992]
医学的画像に基づく診断は、しばしば解剖学的キーポイントのマニュアルアノテーションを含む。
本稿では,ユーザインタラクションシステムを通じて解剖学的キーポイントを自動的に検出し,精査する,新しいディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-15T09:27:14Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - A Review of Uncertainty Quantification in Deep Learning: Techniques,
Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。
ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。
本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文 参考訳(メタデータ) (2020-11-12T06:41:05Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - A Question-Centric Model for Visual Question Answering in Medical
Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。
種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文 参考訳(メタデータ) (2020-03-02T10:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。