論文の概要、ライセンス

# (参考訳) 医用画像解析のための説明可能なai:ベイズ教示による気胸診断 [全文訳有]

Explainable AI for medical imaging: Explaining pneumothorax diagnoses with Bayesian Teaching ( http://arxiv.org/abs/2106.04684v1 )

ライセンス: CC BY 4.0
Tomas Folke, Scott Cheng-Hsin Yang, Sean Anderson, and Patrick Shafto(参考訳) 専門時間制限は医用画像における重要なボトルネックである。 画像分類の進歩により、AIは医療専門家の意思決定支援として機能し、放射線学の生産性と、拡大によって公衆衛生に大きな利益をもたらす可能性がある。 しかし、これらの利益はAIエージェントに対する専門家の信頼の構築と維持に向けられている。 説明可能なAIは、診断判断の背後にあるAI決定プロセスを理解するために医療専門家を支援することによって、そのような信頼を構築することができる。 本稿では,人間学習の認知科学に根ざした説明の形式的記述であるベイズ教養に基づく説明の導入と評価を行う。 ベイジアン・インストラクション(Bayesian teaching)が生成した説明に暴露された医療専門家は、AIの診断決定をうまく予測し、AIが間違っている場合よりも、AIが正しい場合の認証をし、適切な信頼を示す可能性が高い。 これらの結果から,説明可能なAIは,医用画像における人間とAIの協調を支援することができることがわかった。

Limited expert time is a key bottleneck in medical imaging. Due to advances in image classification, AI can now serve as decision-support for medical experts, with the potential for great gains in radiologist productivity and, by extension, public health. However, these gains are contingent on building and maintaining experts' trust in the AI agents. Explainable AI may build such trust by helping medical experts to understand the AI decision processes behind diagnostic judgements. Here we introduce and evaluate explanations based on Bayesian Teaching, a formal account of explanation rooted in the cognitive science of human learning. We find that medical experts exposed to explanations generated by Bayesian Teaching successfully predict the AI's diagnostic decisions and are more likely to certify the AI for cases when the AI is correct than when it is wrong, indicating appropriate trust. These results show that Explainable AI can be used to support human-AI collaboration in medical imaging.
公開日: Tue, 8 Jun 2021 20:49:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 4 8 6 4 0 sc [ 1 v 4 8 6 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Explainable AI for medical imaging: Explaining pneumothorax diagnoses with Bayesian Teaching 医用画像解析のための説明可能なai:ベイズ教示による気胸診断 0.61
Tomas Folkea*, Scott Cheng-Hsin Yanga, Sean Andersona, Patrick Shaftoa aRutgers University, School of Arts and Sciences Newark, Department of Mathematics and Computer Science, 101 Warren Street, Newark, New Jersey, 07102, USA Tomas Folkea*, Scott Cheng-Hsin Yanga, Sean Andersona, Patrick Shaftoa aRutgers University, School of Arts and Sciences Newark, Department of Mathematics and Computer Science, 101 Warren Street, Newark, Newark, New Jersey, 07102, USA 0.91
Abstract. Limited expert time is a key bottleneck in medical imaging. 抽象。 専門時間制限は医用画像における重要なボトルネックである。 0.68
Due to advances in image classification, AI can now serve as decision-support for medical experts, with the potential for great gains in radiologist productivity and, by extension, public health. 画像分類の進歩により、AIは医療専門家の意思決定支援として機能し、放射線学の生産性と、拡大によって公衆衛生に大きな利益をもたらす可能性がある。 0.60
However, these gains are contingent on building and maintaining experts’ trust in the AI agents. しかし、これらの利益は専門家のAIエージェントに対する信頼の構築と維持に向けられている。 0.67
Explainable AI may build such trust by helping medical experts to understand the AI decision processes behind diagnostic judgements. 説明可能なAIは、診断判断の背後にあるAI決定プロセスを理解するために医療専門家を支援することによって、そのような信頼を構築することができる。
訳抜け防止モード: 説明可能なAIはそんな信頼を築けるかもしれない 医療専門家が診断判断の背後にあるAI決定プロセスを理解するのを助ける。
0.60
Here we introduce and evaluate explanations based on Bayesian Teaching, a formal account of explanation rooted in the cognitive science of human learning. 本稿では,人間学習の認知科学に根ざした説明の形式的記述であるベイズ教養に基づく説明の導入と評価を行う。 0.81
We find that medical experts exposed to explanations generated by Bayesian Teaching successfully predict the AI’s diagnostic decisions and are more likely to certify the AI for cases when the AI is correct than when it is wrong, indicating appropriate trust. ベイジアン教授が作成した説明に暴露された医療専門家は、AIの診断決定をうまく予測し、AIが間違っている場合よりも正しい場合にAIを認定し、適切な信頼を示す可能性が高い。 0.76
These results show that Explainable AI can be used to support human-AI collaboration in medical imaging. これらの結果から,説明可能なAIは,医用画像における人間とAIの協調を支援することができることがわかった。 0.53
Keywords: Explainable AI, Medical imaging, Explanation-by-examp les, Bayesian Teaching. キーワード:説明可能なAI、医療画像、説明による説明。 0.67
Human-computer interaction. 人間とコンピュータの相互作用。 0.51
Healthcare, Image classification. *Tomas Folke, tomas.folke@rutgers. edu 医療、画像分類。 ※Tomas Folke, tomas.folke@rutgers. edu 0.74
1 Introduction AI has the potential to transform medicine, particularly in disciplines that are data-rich and rely はじめに AIは医学、特にデータ豊かで頼りにする分野に変革をもたらす可能性がある 0.66
on image-based diagnosis such as radiology.1–3 One of the main constraints for such disciplines 放射線学のような画像に基づく診断について.1–3 このような分野の主な制約の一つ 0.54
is specialist time. Modern image-classifiers could potentially help with the case load as they have 専門的な時間です 最新の画像分類器は、ケースの負荷を減らせるかもしれない 0.73
comparable diagnostic performance to trained medical professionals.4 If easy diagnostic decisions 研修医に匹敵する診断性能 4. 診断が簡単な場合 0.71
could be offloaded to artificial systems, this would allow human experts to focus on the most 人工知能にオフロードされる可能性があり、これは人間の専門家が最も焦点を絞ることができる
訳抜け防止モード: 人工システムに降ろすことができます 人間の専門家が 最も注目するようになるでしょう
0.79
challenging cases, thus reducing costs, increasing treatment volume, and improving diagnostic コストを削減し、治療量を増やし、診断を改善する困難な症例 0.81
performance. However, because of issues relating to legal and ethical accountability, it is unlikely パフォーマンス。 しかし、法的・倫理的説明責任の問題から、その可能性は低い。 0.67
that artificial systems will make independent diagnoses in the immediate future.5 Instead, there 人工システムは、すぐに独立して診断を行う。5 代わりに、そこで 0.66
will be human AI collaboration, where AI serve as decision-support system that helps human AIが人間を助ける意思決定支援システムとして機能する、人間のAIコラボレーション 0.82
specialists by assisting with case-prioritisation or providing second opinions.6 事例優先の補助又は第二意見の提供による専門家6 0.58
1 1 0.85
英語(論文から抽出)日本語訳スコア
The efficiency of human-AI collaboration depends on clinicians understanding and appropri- 人間とAIのコラボレーションの効率性は臨床医の理解と適正性に依存する- 0.60
ately trusting the AI system.7 However, the most accurate image classifiers, deep neural networks, しかし、最も正確な画像分類器であるディープニューラルネットワークは、aiシステムを完全に信頼している。 0.58
are notoriously obscure, and hard even for AI experts to understand.8 Moreover, while accurate, AIの専門家でさえ理解しがたいほど不明瞭で、その上、正確である。 0.58
image classifiers do make counter-intuitive errors and are susceptible to being fooled.9 Thus, while image classifiers do be counter-intuitive error and are susceptible to be fooled.9 while while while 0.88
their opacity is deeply intertwined with their success, it poses a challenge for applying deep neural 彼らの不透明さは彼らの成功に深く絡み合っており、深層神経を適用するための課題となる 0.58
networks on high stakes problems such as medical imaging—until we can develop methods that 医療画像などの高利害問題に関するネットワーク--我々はその手法を開発できるまで 0.73
allow clinicians to develop understanding and appropriate trust. 臨床医は 理解と適切な信頼を 身につけることができます 0.57
Explainable AI (XAI) addresses this problem by developing specialised explainer systems, 説明可能なAI(XAI)は、特殊な説明システムを開発することでこの問題に対処する。 0.58
which have the aim of explaining AI inferences to human users.10 However, most work in XAI ヒューマンユーザへのAI推論の説明を目的としたもの。10. しかし、ほとんどのXAIで作業している。
訳抜け防止モード: 目的は ヒューマンユーザへのAI推論の説明 10. しかし、 XAIのほとんどの仕事は
0.78
has been done by computer scientists for computer scientists, resulting in technical explanations コンピュータ科学者によって行われ 技術的な説明が得られました 0.84
that might help engineers to develop better AI systems, but are of limited utility for other types of エンジニアがより良いAIシステムを開発するのに役立つかもしれないが、他の種類のAIシステムには限界がある 0.57
end-users.11 Indeed, of the many published approaches for explainable AI, a tiny minority have エンドユーザー.11 説明可能なAIのための数多くのアプローチのうち、少数派が持っているもの 0.61
tested their efficacy in a user study.12 The lack of systematic understanding of humans and AI as a ユーザスタディにおける有効性の検証12 人間とAIの体系的理解の欠如 0.68
system remains a challenge. システムは依然として課題です 0.59
Bayesian Teaching is an integrative framework and computational model that addresses these ベイズ教育はこれらに対処する統合的枠組みと計算モデルである 0.68
challenges. Rooted in the cognitive science of human learning,13–15 and drawing upon deep con- 挑戦だ 人文学習の認知科学に根ざし,13-15,深層に描くこと- 0.73
nections to probablistic machine learning,16, 17 Bayesian Teaching authentically integrates models 確率的機械学習に対する否定,16,17ベイズ教義はモデルを統合する 0.64
of human and machine learning in a single system. 人間の学習と機械学習を 一つのシステムで行います 0.73
Bayesian Teaching casts the problem of XAI as ベイズ教官がXAIの問題点を論じる 0.76
a problem of teaching—selecting optimal examples to teach the human user what the AI system has AIシステムが持っているものを教えるための最適な例を選択すること 0.65
inferred. Bayesian Teaching draws upon strong empirical foundations in cognitive science, where 推測だ ベイズ教育は認知科学における強力な経験的基礎を基礎にしている 0.48
it has been proposed as a model to explain the speed and robustness of learning from others.14, 15 他者からの学習の速さと堅牢性を説明するモデルとして提案されている14,15 0.76
We will evaluate two forms of explanation that we have previously validated for explaining 我々は以前に検証した説明の2つの形態を評価する。 0.70
deep neural net image classification in ordinary (non-medical) images among non-expert partici- 非熟練者における通常の(非医学的)画像のディープニューラルネット画像分類 0.71
2 2 0.85
英語(論文から抽出)日本語訳スコア
pants.18 First, explanation-by-examp les, where we select examples from the training data that are pants.18 最初に説明を例示し、トレーニングデータから例を選択します。 0.75
most likely to help the user predict the AI’s decision according to Bayesian Teaching. Bayesian Teachingによると、ユーザーはAIの決定を予測できる。 0.60
Second, explanation-by-featu res, where saliency maps highlight the pixels in the image that most impacted 第二に 画像中の最も影響の大きいピクセルをサリエンシマップでハイライトする説明 0.66
the AI’s decision. We combine these two methods so that users are not just exposed to influential AIの決定。 私たちはこの2つの方法を組み合わせることで、ユーザーが影響力に晒されるだけでなく 0.58
examples, but also saliency maps that showcase which features the AI paid attention to in each 例としては、AIがそれぞれの注意を払っているものを示すサリエンシマップがあります。 0.62
example. Our preliminary work showed that these two methods of explanation complement each 例えば 我々の予備研究は この2つの説明方法が 0.54
other in that explanation-by-examp les helps users identify trials when the AI was correct, whereas 他の例では、AIが正しいときにユーザーが試行を識別するのに役立つ。 0.54
explanation-by-featu res improves error detection,18 so we used both methods to optimize the ex- explanation-by-featu resによりエラー検出が改善される。 0.54
planations in this high impact use case. この大きな影響のあるユースケースにおける計画。 0.59
To evaluate our system, we applied Bayesian Teaching to a deep neural net used to diagnose このシステムを評価するために,我々は診断に用いる深層ニューラルネットワークにベイズ指導を適用した。 0.70
pneumothorax in x-ray images. X線画像における気胸 0.61
The explanations were integrated into an interface that carries 説明は、伝達するインターフェイスに統合された 0.78
basic functionalities for viewing x-ray images. x線画像の表示における基本機能 0.61
We designed an experiment that aimed to test (1) テストを目的とした実験を設計した(1) 0.76
participants’ understanding of the AI (captured by how well they could predict the AI’s decisions) 参加者のAIに対する理解(AIの決定をいかに予測できるかによって得られる) 0.66
and (2) the development of appropriate trust (captured by when they chose to certify the of AI’s および(2) 適切な信頼(AIの認定を選択したときに得られる)の開発 0.67
decisions). Radiologists were recruited to evaluate whether medical professionals benefited from 決定)。 放射線科医は医療専門家の利益を 評価するために雇われました 0.58
the explanations generated by Bayesian Teaching. バイエルン教育によって生み出された説明。 0.52
Our results confirmed the utility of explanation 私たちの結果は説明の効用を確認した 0.64
both for understanding the AI and for developing appropriate trust in the AI system. AIを理解することと、AIシステムに対する適切な信頼を開発することの両方のために。 0.64
2 Methods 2.1 Participants 2つの方法 2.1 参加者 0.60
We recruited eight participants: One medical school student, one radiology resident from Mt Sinai 医学生1名、放射線科医1名という8名の参加者を募った。 0.50
Hospital in New York, and six radiology residents from Guy’s and St Thomas’s Hospital in London. ニューヨークにある病院と、ロンドンのガイズ病院とセント・トーマス病院の6人の放射線学の住人。 0.77
3 3 0.85
英語(論文から抽出)日本語訳スコア
The radiology residents all had an average of three years of experience working as radiologists 放射線技師としての平均3年間の経験がある。 0.62
(Range: 1-10 years). 2.2 Materials (約1~10年)。 2.2材料 0.66
The experiment was conducted online so each participant completed the experiment on their own 実験はオンラインで行われ、各参加者は自分で実験を完了しました 0.76
computer. We maintained a standard image size to ensure comparability across sessions. コンピューターだ セッション間の互換性を確保するため、標準のイメージサイズを維持しました。 0.60
To this end we enforced a minimum screen size of 1064 x 600 pixels. これへ 最終的に1064×600ピクセルの最小画面サイズを 強制しました 0.70
2.3 Bayesian Teaching Bayesian Teaching is a method for selecting optimal explanatory examples. 2.3 ベイズ教養 ベイズ教育は最適な説明例を選択する方法である。 0.65
Explanation-by- examples can be considered a social teaching act. 解説 例として社会教育法が挙げられる。 0.64
The explainer (as the teacher) selects examples 説明者は(教師として)例を選択する 0.73
to guide the explainee’s (as the learner) inference to a desired target. to guide the explainee's (as the learner) inference to a desired target. 0.85
In Bayesian Teaching a good ベイズ語で良いことを教える 0.47
explanation consists of a small subset of the training data that will, with high probability, lead a 説明はトレーニングデータのごく一部で構成されており、高い確率でaを導く。 0.60
learner model to the correct inference. 正しい推論への学習者モデル。 0.70
The general equation for Bayesian Teaching is ベイズ教育の一般的な方程式は 0.68
PT (D|Θ) = (cid:82) PT(D|) = (cid:82) 0.84
PL(Θ|D)PT (D) pl(θ|d)pt (d) 0.65
D PL(Θ|D(cid:48))PT (D)dD(cid:48) . D PL(a|D(cid:48))PT(D)dD(ci d:48)。 0.80
(1) In this equation, D can be any subset of the training data; Θ denotes the inference of the AI to be explained; PT (D|Θ) is the probability of choosing D as the explanatory examples for the target Θ; PL(Θ|D) is the learner’s posterior inference after receiving D; and PT (D) describes an a priori (1) この方程式では、D は訓練データの任意の部分集合であり、 は説明すべきAIの推論を表し、 PT (D| ) は対象 D の説明例として D を選択する確率を表し、PL は D を受け取った後の学習者の後部推論であり、 PT (D) は先験を記述する。 0.81
bias for a certain kind of examples (e g , favoring smaller subsets); and the integral is over all ある種の例(例えば、より小さな部分集合を好む)に対するバイアス、そして積分は、すべて以上である 0.75
partitions of the training data consistent with PT (D). PT(D)と整合したトレーニングデータのパーティション。 0.70
In this paper, the target Θ is the target model’s predicted label c∗ of a target image x∗. 本稿では、目標 θ を対象画像 x∗ の目標モデルの予測ラベル c∗ とする。 0.69
The PT (D) spreads the probability uniformly over any D that is composed of a true positive, a true pt(d)は、真の正、真からなる任意のdに対して一様に確率を広げる 0.54
4 4 0.85
英語(論文から抽出)日本語訳スコア
Fig 1 Selection of explanatory examples and saliency maps with Bayesian Teaching. 第1図 ベイズ教示を伴う説明例と敬礼地図の選定。 0.70
The inputs to Bayesian Teaching are: the target image x∗ and the label c∗ predicted by the target model; the training dataset; and the learner model, which is a program that computes PL(Θ|D). ベイズ教育への入力は、対象画像 x∗ と、対象モデルによって予測されたラベル c∗ 、トレーニングデータセット、およびpl(θ|d) を計算するプログラムである学習者モデルである。 0.74
The green box depicts the inner working of Bayesian Teaching. 緑の箱にはベイズ教養の内面が描かれている。 0.59
Image sets D that satisfy PT (D) are sampled at random. PT(D)を満たす画像集合Dをランダムにサンプリングする。 0.73
The learner model takes in a large number of random trials (each row of {x∗, D}) to produce the unnormalized teaching probabilities. 学習モデルは多数のランダムな試行(それぞれ {x∗, D} の行)を取り入れ、正規化されていない教育確率を生成する。 0.76
Here, a set D with probability ≈ 1 is selected as the explanatory example. ここで、説明例として、確率 1 のセット d が選択される。 0.84
The final output is a set of ten images: the target image, the four examples selected, and the saliency maps of these five images. 最終的な出力は、対象画像、選択された4つの例、およびこれら5つの画像のサリエンシーマップの10のイメージのセットである。 0.70
The saliency maps are generated from the target model (AlbuNet). 唾液マップはターゲットモデル(AlbuNet)から生成される。 0.70
negative, a false positive, and a false negative example from the training data, with labels predicted by the target model. ネガティブ、偽陽性、およびトレーニングデータからの偽陰性例で、ターゲットモデルによってラベルが予測される。 0.72
The learner model, PL(Θ|D), has exactly the same architecture as the target 学習者モデル pl(θ|d) は対象と全く同じアーキテクチャを持つ 0.67
model, but whereas the target model is trained on the entire training data set, the learner model is only trained on the four examples in D. Given these specifications—the image-label pair {x∗, c∗}, the constraint of PT (D), and a program that computes PL(Θ|D)—Equation 1 outputs the posteriors モデル、しかし、対象モデルはトレーニングデータセット全体に基づいて訓練されるが、学習モデルはdの4つの例でしか訓練されない。これらの仕様が与えられたとき、画像ラベルペア {x∗, c∗} 、pt(d) の制約、pl(θ|d) を計算したプログラムは、後置値を出力する。 0.69
on teaching sets D. A teaching set from the posterior is sampled by taking the maximum-a- 教えセットDについて。最大aを取ることで、後部からの教えセットをサンプリングする 0.58
posteriori D. Figure 1 shows a flowchart of how we implemented Bayesian Teaching. 後部D。 図1はベイズ教育の実施方法のフローチャートを示している。 0.63
The inputs were the target image x∗ and its label c∗; the training dataset; and the learner model, which is a program that computes PL(Θ|D) := PL(c∗|x∗, D). 入力は、 対象画像 x∗ とそのラベル c∗; トレーニングデータセット; および学習者モデル; PL(\|D) := PL(c∗|x∗, D) を計算するプログラム。 0.62
Ten thousand sets of D were sampled from PT (D). PT(D)から1万セットのDを採取した。 0.68
For each D, the (unnormalized) teaching probability, which is proportional to PL(Θ|D), was computed. 各dに対して、pl(θ|d)に比例する(非正規化)指導確率が計算された。 0.71
For c∗ = 1 and c∗ = 0, we randomly selected from sets of D that satisfied 1 − PL(Θ|D) <  and PL(Θ|D) < , respectively, where  is set to 10−6. c∗ = 1 と c∗ = 0 に対して、我々はそれぞれ 1 − PL(n|D) < > と PL(n|D) < > を満たす D の集合からランダムに選択する。
訳抜け防止モード: c∗ = 1 と c∗ = 0 に対して、1 − PL(\|D ) < ... を満たす D の集合からランダムに選択する。 そして PL は、それぞれ 10−6 に設定されている。
0.77
The target mode, or the AI to be explained, is a deep neural network called AlbuNet used to di- ターゲットモード、あるいは説明すべきaiは、diに使用されるalbunetと呼ばれるディープニューラルネットワークである。 0.75
5 Target image & label:negativepositi veTeachingprobabilit y(unnormalized)...po sitive...negative... Training data:Learnermodel:0. 040.070.99*0.01..... .Optimal examples + Saliency mapsRandom examplesLearner modelBayesian Teachingnegativeposi tive...Target image, explanatory examples,saliency mapsGenerated explanations, positive 5 Target image & label: negative positiveTeachingprob ability(unnormalized )... positive... positive...Training data:Learnermodel:0. 040.070.99*0.01..... .Optimal examples + Saliency mapRandom examplesLearner modelBayesian teaching positive...Target image, explanatory example, Saliency mapGenerated explanations, positive 0.77
英語(論文から抽出)日本語訳スコア
agnose pneumothorax in x-ray images.19 AlbuNet was trained on x-ray images with radiologists’ agnose pneumothorax in x-ray images.19 albunet on x-ray images with radioologists' 0.87
markings of regions of pneumothorax. 気胸の領域のマーク。 0.51
The training data is the SIIM-ACR Pneumothorax Seg- トレーニングデータはSIIM-ACR Pneumothorax Segである。 0.79
mentation dataset hosted on Kaggle.1 To make inferences, AlbuNet first computes the probability Kaggle.1にホストされたメンテーションデータセット 推論を行うために、AlbuNetはまず確率を計算する 0.65
that pneumothorax is present for each pixel of the target image. その気胸は 対象画像の各ピクセルに 存在します。 0.58
It then takes these pixel-by-pixel そしてこのピクセルをピクセル単位で取ります 0.56
probabilities (hereafter referred to as AlbuNet probabilities) and makes a binary classification for 確率(後にAlbuNet確率と呼ばれる)で二項分類を行う 0.69
the full image by judging whether the number of pixels with AlbuNet probability greater than b1 アルブネ確率がb1より大きい画素数を判定することで全画像を得る 0.80
is greater than b2. B2より大きいのです 0.80
We developed a probabilistic version of the original thresholding model. 元のしきい値モデルの確率バージョンを開発した。 0.83
The new thresholding model has comparable accuracy (90% vs the original 86%) and is amenable to the probabilistic inference required by PL(Θ|D) in Equation 1. 新しいしきい値モデルの精度は90%(元の86%と比較すると90%)で、方程式 1 の PL で要求される確率的推論に対応できる。 0.58
In contrast to the original model, the modified model applies soft thresholds in the form of 元のモデルとは対照的に、修正されたモデルはソフトしきい値を適用する。 0.64
logistic functions. ロジスティック関数。 0.59
Specifically, the probability that the image x has pneumothorax (c = 1) under 具体的には、画像 x が気胸 (c = 1) の下の確率である。 0.72
the modified model is given by P (c = 1|x, θ) = lim α→∞ 修正されたモデルは P(c = 1|x, θ) = lim α→∞ 0.79
(cid:33) 1 (cid:32) M(cid:89) 1 + exp−(w1xj1−b1) · (cid:33)1 (cid:32) M(cid:89) 1 + exp−(w1xj1−b1) · 0.73
pα j α ; j=1 pαj α ; j=1 0.78
1 pj = 1 1 + exp−(w2xj2−b2) . 1 pj = 1 1 + exp−(w2xj2−b2)。 0.78
(2) (3) In Equation 2, θ = {w1, b1, w2, b2} are the parameters of the two soft thresholds; M is the number (2) (3) 方程式 2 において、θ = {w1, b1, w2, b2} は2つのソフトしきい値のパラメータである。 0.83
of pixels in image x whose AlbuNet probability are > 0.05; j indexes the pixels in image x that AlbuNetの確率が > 0.05 である画像 x のピクセルについて、j は画像 x のピクセルをインデックスする 0.75
satisfy this criteria; and the infinity norm described by α picks out the pixels with maximal pj この基準を満たし、α によって記述される無限のノルムは最大 pj を持つ画素を選択する 0.75
value in x. In Equation 3, xj1 denotes the AlbuNet probability for the jth pixel in x, and xj2 is a x の値。 方程式 3 において、xj1 は x の j ピクセルの AlbuNet 確率を表し、xj2 は a である。 0.76
normalized index between [0, 1] that measures that how many admitted pixels there are in x and 0, 1]間の正規化インデックスで、x と 1 に認められたピクセルの数を測定する 0.77
how many of the admitted pixels in x are smaller than the xj1. xの認識されたピクセルのうち何個がxj1より小さいか。 0.76
Note that xj2 = 1 if all pixels in x x 内のすべてのピクセルが xj2 = 1 であることに注意。 0.62
1https://www.kaggle. com/c/siim-acr-pneum othorax-segmentation 1https://www.kaggle. com/c/siim-acr-pneum othorax-segmentation 0.22
6 6 0.85
英語(論文から抽出)日本語訳スコア
are admitted and the corresponding xj1 is the pixel with maximal AlbuNet probability in x. が許容され、対応するxj1はxの最大アルブネット確率を持つ画素である。 0.75
To give an intuition for these equations, Equation 2 represents the image x by the pixels in it これらの方程式の直観を与えるために、方程式 2 は画像 x をその中のピクセルで表す。
訳抜け防止モード: これらの方程式の直観を与える。 方程式2は画像xをその中のピクセルで表す
0.72
that have the highest probability for c = 1. これは c = 1 に対して最も高い確率を持つ。 0.71
The product of the two logistic functions in Equation 3 方程式3における2つのロジスティック関数の積 0.76
carves out a soft quadrant in the two dimensions represented by x·1 (the probability of pixel be- x·1で表される2次元のソフトな四角形を彫り出す(ピクセルbeの確率) 0.78
longing to a region with pneumothorax according to AlbuNet) and x·2 (a normalized measure of AlbuNetによる気胸とx·2(正常化測度)のある領域に長いさま 0.69
the number of pixels with high AlbuNet probability) and assigns images with pixels in that quad- アルブネット確率の高いピクセルの数で、そのクワッドのピクセルで画像を割り当てる 0.62
rant a high probability to be c = 1. rant は c = 1 となる確率が高い。 0.74
Intuitively, an image will be represented in this quadrant of 直観的には、画像をこの四分の一で表現します 0.50
high probability for c = 1 if it has a large number of pixels with high AlbuNet probability. c = 1 に対して高い確率は、高いアルブネット確率を持つ多数のピクセルを持つ場合である。 0.81
The θ = {w1, b1, w2, b2} of the target model was obtained by maximum likelihood training 標的モデルのθ = {w1, b1, w2, b2} は最大極大トレーニングにより得られる。 0.78
using gradient descent on the cross-entropy loss computed on the entire training dataset. トレーニングデータセット全体で計算されたクロスエントロピー損失の勾配降下を利用する。 0.68
The cross-entropy loss uses the P (c = 1|x, θ) defined in Equations 2–3. クロスエントロピー損失は方程式 2–3 で定義される P (c = 1|x, θ) を用いる。 0.74
Similarly, the θ for the learner 同様に、学習者に対するθ 0.86
model is trained on the four examples in the selected D. The explanatory examples are selected when the D produced a θ such that P (c = 1|x∗, θ) ≈ 1 if c∗ = 1 and P (c = 1|x∗, θ) ≈ 0 if c∗ = 0. 説明例は、Dが θ を生成した時に選択され、P (c = 1|x∗, θ) は c∗ = 1 で P (c = 1|x∗, θ) は c∗ = 0 であれば 0 である。
訳抜け防止モード: D が P ( c = 1|x∗, であるような θ を生成するとき、説明例が選択される。 もし c∗ = 1 で P ( c = 1|x∗) であるなら θ ) は 1 である。 θ ) は c∗ = 0 であれば 0 である。
0.76
The saliency maps of all images are simply the map of AlbuNet probabilities for that image. すべての画像の正当性マップは、単にその画像のAlbuNet確率のマップである。 0.78
The saliency map is visualized using the hot colormap in Matplotlib20 with pure black and white fixed 塩分マップは、純粋な黒と白の固定されたMateplotlib20のホットカラーマップを使用して視覚化される
訳抜け防止モード: 塩分マップが可視化されます matplotlib20におけるホットカラーマップの使用
0.53
to AlbuNet probability = 0 and 1, respectively. それぞれ AlbuNet 確率 = 0 および 1 となる。 0.76
2.4 Study Design Our experiment consisted of three blocks of trials, following consent forms and general instruc- 2.4 研究設計 我々の実験は3ブロックの試行から成っている。 0.61
tions, see Fig 2. The first block evaluated how well the participants could predict the AI diagnoses. 図2参照。 最初のブロックは、参加者がAI診断をどれだけ正確に予測できるかを評価した。 0.52
The two subsequent blocks evaluated if the explanations developed appropriate trust by asking その後の2つのブロックは、説明が適切な信頼を生み出すかどうかを尋ねて評価する 0.57
them to certify the AI for different cases. 彼らは異なるケースでaiを認定する。 0.55
One of these blocks involved examples and saliency これらのブロックの1つは、例と敬礼を含む 0.56
maps whereas the other just involved saliency maps. 地図は、もう1つは、正当性マップです。 0.59
Each block consisted of 8 trials, with target 各ブロックは8つのトライアルで構成され、ターゲットは 0.66
7 7 0.85
英語(論文から抽出)日本語訳スコア
images counterbalanced based on the AI’s judgement, so that they included two each of true posi- AIの判断に基づいて、画像は相反し、真のポジットをそれぞれ2つ含むようにした。
訳抜け防止モード: 画像はAIの判断に基づいて相反する 彼らはそれぞれ真のposiを2つ含んでいた
0.72
tives, true negatives, false positives and false negatives. 真陰性、偽陽性、偽陰性。 0.47
In each block the presentation order of the 各ブロックにおいて、各ブロックの表示順序 0.61
trials was randomised and differed between participants. 試験はランダム化され 参加者によって異なる 0.59
Fig 2 A. Trial structure for the different blocks. 図2a。 異なるブロックの試行構造。 0.67
B. Experimental Design. B。 実験デザイン。 0.77
Collectively the two certification blocks have sixteen target images, consisting of eight pairs. 2つの認証ブロックは、合計で8対からなる16のターゲットイメージを持つ。 0.69
Each pair was constructed to belong to the same AI judgement category, and to be as similar as それぞれのペアは、同じAI判断カテゴリに属し、同じものとなるように構築されました。 0.73
possible (in terms of L1 norm distance) within that category. この圏内で(L1ノルム距離の観点で)可能となる。 0.62
The pairs were then split so that one ペアは1つに分割される。 0.64
member of each pair was shown in the block involving saliency maps but no examples, and the それぞれのペアのメンバーは、サリエンシマップを含むブロックに表示されたが、例はなく、そして、 0.63
other was shown in the other block that involved both saliency maps and examples. もう一つは 公衆衛生マップと 例の2つのブロックで示されました 0.62
Which image in each pair belonged to each block was randomised and varied between participants. どの画像が それぞれのペアは ランダム化され 参加者によって変化しました 0.69
In the first block, each trial began with participants diagnosing the target image on a con- 第1ブロックでは、各試験は、参加者がコンで対象画像を診断することで開始される。 0.60
tinuous rating scale with the endpoints labelled as “Certain pneumothorax present” and “Certain Certain pneumothorax present" と "Certain" とラベルされたエンドポイントによる連続的な評価尺度 0.75
pneumothorax absent”. pneumothorax (複数形 pneumothoraxs) 0.58
Responses were coded as an integer between 0 and 100, with 0 corre- 応答は 0 から 100 の整数としてコードされ、0 のコレを持つ。 0.68
sponding to certain absence of pneumothorax and 100 to certain presence. 気胸のある種の欠如と、ある存在への100の発病。 0.56
They could zoom in on 彼らはズームインできる 0.86
8 8 0.85
英語(論文から抽出)日本語訳スコア
the target image and invert its colours, and they had unlimited time to make their judgement. ターゲットのイメージを反転させ、色を反転させ、判断するのに無限の時間を費やした。 0.65
After making their diagnosis participants were shown four examples (one at a time). その後 診断の参加者には4つの例(一度に1つ)が示された。 0.64
The examples were presented in a fixed order, starting with a true positive AI diagnosis followed by a true negative, 例を挙げると 正の正のAI診断から始まり、正の負の反応で、一定の順序で提示される。 0.71
a false positive and a false negative. For each example participants were informed of the ground 偽陽性と偽陰性 例の参加者に 地面を知らせてもらいました 0.50
truth, the AI classification, and the AI probability judgement of pneumothorax. 真理、AI分類、およびニューモトラクスのAI確率判定。 0.48
Participants were also presented with a saliency map of the example image, and were able to zoom and invert col- 参加者は また、サンプル画像の鮮度マップを提示し、ズームしてコロンを逆転することができた 0.68
ors of the example. Participants decided how long to view each example. 例のors。 参加者はそれぞれの例を見るのにどのくらい時間がかかるか決めました。 0.47
Once participants had viewed all examples they were shown the target image with the AI’s saliency map, after which 参加者は一度 対象の画像をAIの唾液度マップで表示したすべての例を見て、その後、 0.71
we asked them to predict the AI diagnosis of the target image. ターゲット画像のAI診断を 予測するように頼みました 0.64
Participants made their prediction on a “reminder screen” that reminded them how they themselves had diagnosed the target, while 参加者は予測した で、その間に彼らがどのようにターゲットを診断したかを思い出させる。 0.65
also showing them miniatures of all the examples, and the target image, with the option to expand, また、すべての例とターゲットイメージのミニチュアも表示し、拡大するオプションがあります。 0.62
zoom and invert any of the images. 画像を拡大して 反転させてください 0.70
They made their prediction on a continuous rating scale sim- 彼らは連続的な評価尺度 sim で予測した 0.77
ilar to the diagnostic scale described earlier. 先に述べた診断尺度に ilar を適用。 0.63
Once they had made their prediction they received ひとたび彼らは予測をした 0.63
feedback on the accuracy of their prediction. 予測の正確さに対するフィードバックです 0.70
The order of the two certification blocks were randomised between participants. 2つの認証ブロックの順番は参加者間でランダム化された。 0.60
In one certifi- In one certifi- 0.94
cation block participants were given the same information as in the prediction phase, in the other カチオンブロックの参加者は、予測フェーズで、もう一方で同じ情報を与えられた 0.73
they only viewed a saliency map of the target image. ターゲット画像の正当性マップしか見ませんでした 0.69
As opposed to the first block, in the certifica- 第1ブロックとは対照的に、証明書において 0.64
tion blocks they were also shown the AI’s judgement on the target image. 対象の画像にはAIの判断も表示されていた。 0.56
Participants were asked whether they would certify the AI for images similar to the target (a binary judgement), report 参加者は 目標(二項判定)と同様の画像に対してAIを認証するかどうか、報告 0.68
whether they agreed with the AI’s diagnosis, and finally justify their certification decision. aiの診断に同意し、最終的に認定決定を正当化するかどうかだ。 0.75
They could select multiple justifications among the following alternatives: (1) The robot got the correct それら 1)ロボットは正しいことをした。 0.46
answer, (2) The robot was appropriately confident, (3) The robot looked in the right place, (4) The 答え, (2) ロボットは適切な自信を持って, (3) ロボットは正しい場所を見ていた,(4) 0.84
examples are informative, (5) I am not certain I should certify, (6) Other. 例を挙げると, (5) 証明すべきかどうか, (6) その他 0.63
If participants selected 9 参加者が選ばれたら 9 0.72
英語(論文から抽出)日本語訳スコア
(4)–(6) they had to elaborate in free text, but regardless of their choices they always had the option (4)-(6)自由テキストで精通しなければならないが、その選択によらず常に選択肢があった。 0.79
to elaborate in free text if they wished. 彼らが望むなら 自由な文章に精通する 0.58
2.5 Statistical models All analysies were conducted in R (v 4.0.3). 2.5 統計モデル 分析はすべてR(v.0.3)で行われた。 0.71
Bayesian regression models were fitted in brms (v ベイズ回帰モデルはbrms (v) に適合した 0.69
2.14.0). We used regularizing priors to ensure convergence: Cauchy(0, 10) for the intercept mean, 2.14.0). 我々は、プリエントを正規化して収束を保証する: インターセプト平均のcauchy(0, 10)。 0.59
Normal(0, 10) for the beta-coefficients, and Half-Student-t(3, 0, 2.5) for the intercept standard beta-co efficients の normal(0, 10) とintercept standard の half-student-t(3, 0, 2.5) 0.84
deviation. All models were sampled 2000 times in 4 different chains following 1000 warm-up 逸脱 すべてのモデルは、1000回のウォームアップの後、4つの異なるチェーンで2000回サンプリングされた 0.42
samples per chain, resulting in 8000 posterior samples. 鎖1本あたりのサンプル 8000個の後部サンプル 0.76
All posteriors were checked for chain 後部はチェーンでチェックされた 0.67
convergence. 3 Results 3.1 First order accuracy 収束 3結果 3.1 1次精度 0.62
To assess the first-order diagnostic accuracy of our radiologists we compared two nested Bayesian 放射線科医の1次診断精度を評価するために,2つのネストベイジアンとの比較を行った。 0.48
linear models: one predicting diagnoses from only participant-wise random intercepts (capturing 線形モデル:参加者のランダムインターセプトのみから診断を予測する(キャプチャ) 0.79
participant-specific response biases) and one model that added a fixed effect for the ground truth 参加者固有の反応バイアス)と根拠真理に一定の効果を加えた1つのモデル 0.70
of the target image (capturing the discriminant ability of the radiologists). 対象のイメージ(放射線技師の識別能力のキャプチャ)。 0.50
The second model fitted the data better than the first model, as indicated by a higher leave-one-out expected log point-wise 2つ目のモデルは 1番目のモデルよりもよいデータで、より高い残高で示されるログのポイントワイズ 0.69
predictive density (ELP Dloo)21 than the first model (∆ = 6.5, se = 2.4), indicating that radiologists 予測密度 (elp dloo)21 は最初のモデル ( 6.5, se = 2.4) よりも大きい。 0.69
could successfully diagnose pneumothorax. 気胸の診断に成功しました 0.49
The posterior mean of this effect was 21.19 (95% この効果の後方平均は21.19 (95%) であった。 0.66
credible interval = 7.69–33.83) on a 100-point scale, suggesting that radiologist judgements (their 信頼できる間隔 = 7.69–33.83) 100点スケールで、放射線科医が判断する(their)。 0.55
diagnoses using the continuous rating) differed on average about 20 points between trials when 連続評価を使用して診断される)試行期間の平均で20ポイント程度の違い 0.75
10 10 0.85
英語(論文から抽出)日本語訳スコア
Fig 3 Diagnosing and predicting pneumothorax. 第3図 気胸の診断と予測 0.77
A. The participants can reliably identify cases when pneumothorax is present. A。 参加者は気胸の症例を確実に特定することができる。 0.64
B. The participants can reliably predict AI classifications. B。 参加者はAI分類を確実に予測できる。 0.74
C. The participants can reliably predict AI classification even when controlling for their own first order diagnoses. C. 参加者は, 自己の1次診断を制御しても, 確実にAI分類を予測することができる。 0.65
(A & B) Light blue points capture unique trials; red diamonds and lines capture individual participants; and black lines and points capture the group level trends. (A&B)ライトブルーポイントはユニークな試行を、レッドダイヤモンドとラインは個々の参加者を、ブラックラインとポイントはグループレベルの傾向を捉えます。
訳抜け防止モード: (A&B)ライトブルーポイントのユニークな試行 赤いダイヤモンドや線が個々の参加者を捉え 黒線と点がグループレベルの傾向を捉えます。
0.81
Error bars represent 95% bootstrapped confidence intervals. エラーバーは95%の自己ストラップ付き信頼区間を表す。 0.53
(C) Points indicate trial-level observations. (C)試験レベルの観測点。 0.69
The probability ribbon capture the posterior distributions of the regression lines from the hierarchical Bayesian model. 確率リボンは階層的ベイズモデルから回帰線の後方分布を捉える。 0.63
pneumothorax was present and trials when pneumothorax was absent. 気胸があり 気胸がなかった時 治験を受けました 0.51
For a descriptive overview 説明的な概要のために 0.60
of these results see Fig 3 A. これらの結果の内訳は図3Aである。 0.65
3.2 Predictive accuracy The radiologists correctly predicted the AI’s judgement on 6 out of 8 trials on average (range = 3.2 予測精度 放射線学者はAIの判断を平均8回中6回(範囲=)に正確に予測した。 0.70
5–7), see Fig 3 B. 5-7) 図3bを参照。 0.72
Previous work on non-experts suggests that absent intervention humans ex- 非専門家に対する以前の研究は、人間の介入が不在であることを示唆している- 0.39
pect the AI’s judgement to mirror their own.18 To account for this we fitted three nested Bayesian AIの判断を自分自身に反映させる18.我々は3つのネストしたベイジアンを装着した 0.70
linear models predicting radiologist predictions of the AI diagnoses. AI診断の放射線医学的予測を予測する線形モデル。 0.73
The null-model contained participant-wise intercepts and a fixed effect of the radiologist’s diagnosis for that trial. 含んだヌルモデル 参加者によるインターセプトと、その試験に対する放射線科医の診断の固定効果。 0.65
The sec- sec (複数形 secs) 0.30
ond model added a fixed effect for the AI’s classification (coded as 0 for “pneumothorax absent” Ondモデルは、AIの分類に一定の効果を加えた(「気胸不在」の0としてコード化されている)。 0.53
and 1 for “pneumothorax present”). and 1 for “pneumothorax present”) 0.71
The third model added an interaction term between the AI’s 第3のモデルはAI間のインタラクション用語を追加した 0.80
classification and the radiologist diagnosis. 分類と放射線医の診断 0.80
Radiologists could effectively predict the AI even when 放射線学者はAIを効果的に予測できる 0.60
11 0255075100Ptx absentPtx presentGround TruthDiagnosis ptx presentA0255075100Pt x absentPtx presentAI diagnosisPrediction ptx presentB025507510002 55075100Diagnosis Ptx PresentPrediction Ptx PresentAI PredictionPtx absentPtx presentC 11 0255075100Ptx absencePtx presentGround TruthDiagnosis ptx presentA02575100Ptx absentPtx PresentAI diagnosisPrediction ptx presentB025751000257 5100Diagnosis Ptx PresentPredictionPtx PresentAI PredictionPtx absencePtx presentC 0.90
英語(論文から抽出)日本語訳スコア
accounting for their first-order diagnosis as illustrated by the second model fitting the data better データの適合性が向上した第2モデルによる第1次診断の計算 0.73
than the first model (ELP Dloo ∆ = 11.8, se = 3.5). 最初のモデルよりも大きい(ELP Dloo > = 11.8, se = 3.5)。 0.71
The third model fitted the data marginally 第3のモデルはデータをわずかに取り付けた 0.69
better than the second model (ELP Dloo ∆ = 0.5, se = 2.3), implying that the first order diagnostic 2番目のモデル(ELP Dloo > = 0.5, se = 2.3)よりも優れており、第一のオーダーが診断されることを意味する。
訳抜け防止モード: 2番目のモデル(ELP Dloo > = 0.5)より優れている。 se = 2.3 ) 1階目の診断は
0.68
judgements might impact predictions of the AI differently when the AI is correct relative to when 判断は、AIがいつ正しければ、AIの予測に異なる影響を与えるかもしれない 0.71
it is wrong, but we have too few observations to reach a strong conclusion. それは間違っているが、強い結論に達するには観測が少なすぎる。 0.60
To more fully explore the relationship between radiologist predictions, radiologist diagnoses, 放射線科医の予測と 放射線科医の診断との関係を 0.65
and the classification of the AI, we studied the posterior coefficients of the third model, see also また、AIの分類、第3モデルの後部係数についても検討した。 0.67
Fig. 3 C. Radiologists predictions tend to be more positive when the AI did classify pneumothorax フィギュア。 3C.放射線医の予測は、AIが気胸を分類するとより肯定的になる傾向がある
訳抜け防止モード: フィギュア。 3c. 放射線科医の予測は aiが気胸を分類した方が
0.56
than when it did not, even when they themselves found pneumothorax very unlikely (posterior 気胸がとてもありそうにない(術後)時よりも 0.45
mean = 12.47, 95% credible interval = -2.38–27.22). 平均 = 12.47, 95% 信頼区間 = -2.38–27.22)。 0.58
When the AI did not classify pneumothorax AIが気胸を分類しなかったとき 0.76
as present there was no relationship between radiologist diagnoses and their prediction of the AI 現在、放射線医の診断とAIの予測には関係がなかった。 0.70
(posterior mean = 0.00, 95% credible interval = -0.22–0.22). (事後平均 = 0.00, 95%信頼区間 = -0.22–0.22)。 0.64
But for the trials when the AI classi- しかし、AI授業の試行のために- 0.74
fied pneumothorax as present there was a positive relationship between radiologist diagnoses and 現時点の気胸は 放射線科医の診断と 有意な関係があった 0.61
their prediction of the AI (posterior mean = 0.37, 95% credible interval = 0.10–0.64). aiの予測(ポスト平均 0.37, 95%信頼区間 = 0.10–0.64)。 0.74
The dif- dif (複数形 difs) 0.21
ference in intercepts indicate that the explanations worked: radiologist predictions were typically インターセプトの推測は、説明がうまくいったことを示している:放射線学者の予測は通常、 0.49
more positive on the rating scale for positive AI classifications than negative AI classifications, ネガティブなAI分類よりも、ポジティブなAI分類の格付け尺度の方が肯定的です。 0.58
when accounting for their own diagnostic judgement. 自分自身の診断判断に 責任を負う場合です 0.50
The difference in slopes indicate that the 斜面の違いは、そのことが示される。 0.54
participants’ own diagnoses serve as priors for the prediction of the AI for target images where the 参加者自身の診断は、ターゲット画像に対するAIの予測の先駆けとなる。
訳抜け防止モード: 参加者自身の診断 ターゲット画像のためのAIの予測の先行として機能する
0.79
AI is correct, but not when it is wrong. AIは正しいが、間違っているときではない。 0.82
3.3 Certifications There are three key questions that we aim to address with regards to certifications: 1) Are par- 3.3 認定 認定に関して、私たちが取り組むべき重要な質問は3つあります。
訳抜け防止モード: 3.3 認定 重要な疑問が3つあります 認定に関する問題に取り組むことを目指しています : 1 ) par-
0.71
ticipants more likely to certify the AI for images where it makes a correct diagnosis than where 患者は、正しい診断を行う画像に対してAIを認証する可能性が高い 0.69
12 12 0.85
英語(論文から抽出)日本語訳スコア
it makes mistakes? 2) Are they more likely to certify correct trials for the block with examples 間違いを犯す? 2) ブロックの正しい試験を例で認定する傾向は高いか? 0.64
relative to the block without examples? 例のないブロックと比較して? 0.72
3) What justifications do participants provide for their 3)参加者は何を正当化するか 0.79
certification judgements and what do these tell us about their decision processes? 認定審査と 決定プロセスについて何を教えてくれますか? 0.79
We address the first two questions with Bayesian regression models, to maintain analytic coherence. と答える。 解析コヒーレンスを維持するため、ベイズ回帰モデルに関する最初の2つの質問。 0.45
Because the third question is more qualitative and open-ended we only explore it descriptively. なぜなら 第3の質問はより質的であり、オープンエンドは記述的にのみ調べます。 0.58
To test whether radiologists are more likely to certify images that the AI classifies correctly, 放射線科医がAIが正しく分類した画像を認証する確率が高いかどうかをテストする。 0.60
and whether the examples impact these judgements, we fit and evaluate three Bayesian hierarchical 例がこれらの判断に影響を与えるか ベイズ人の3つの階層を 0.63
logistic regression models. ロジスティック回帰モデル。 0.62
The null model predicted certification judgements (certified coded as nullモデルによる認定判定(認証コード)の予測 0.86
1, not certified coded as 0) from random intercepts at the participant level, the second model added 2つ目のモデルは、参加者レベルでランダムインターセプトから0と認定されていない。 0.62
AI correctness as a fixed-effect predictor, the third model added fixed effects for the explanation 固定効果予測器としてのAIの正当性、第3モデルは説明に固定効果を加えた 0.65
block and an interaction term between explanation block and AI correctness. ブロックと説明ブロックとAIの正しさの間の相互作用用語。 0.78
The main-effect model accounted for the data better than the null-model (ELP Dloo ∆ = 7.0, se 主な効果モデルは、ヌルモデルよりも優れたデータを持つ(elp dloo = 7.0, se)。 0.73
= 4.0) or the interaction model (ELP Dloo ∆ = 1.8, se = 1.1). = 4.0) あるいは相互作用モデル(elp dloo ) = 1.8, se = 1.1)。 0.76
These results imply that participants これらの結果は 参加者が 0.70
are more likely to certify trials when the AI classifies the target correctly (Mean OR = 5.12, 95 AIがターゲットを正しく分類するとき、試験を認証する可能性が高い(平均 OR = 5.12, 95) 0.72
% Credible interval = 2.21–10.72), but that there is no reliable difference in certifications between % Credible interval = 2.21–10.72) しかし、認定の信頼性に違いはない。 0.75
the block with examples and the block without examples, see Fig 4. 例のないブロックと例のないブロックは、図4を参照してください。 0.69
Also note that certification probabilities tend to be below chance when the AI is incorrect but above chance when the AI is なお、認証も行う。 AIが正しくない場合は確率が低い傾向にあるが、AIが正しくない場合は確率よりも低い傾向にある。
訳抜け防止モード: なお、認証も行う。 確率は 確率よりも低い傾向があります AIは間違っています しかし 偶然にもAIは
0.67
correct. Because the two blocks are not reliably different we will collapse them in our subsequent 正解だ 2つのブロックは確実に異なるわけではないので、我々はその後でそれらを崩壊させます。 0.54
discussion on certification justifications. 認定の正当性に関する議論です 0.59
Our participants certified 46 cases where the AI was correct versus 25 cases when the AI was 参加者は、AIが正しかった46例に対して、AIが正しかった25例を認定した。 0.59
wrong. They chose not to certify 39 cases when the AI was wrong, relative to 18 cases when the 間違ってる 彼らは、AIが間違っていた場合に39のケースを認定しないことを選択した。 0.63
AI was correct. In 16 out of 25 cases when participants certified the AI despite it being wrong, they AIは正しかった。 不正にもかかわらず、参加者がAIを認定した25件中16件で、彼らは 0.75
justified their certification in terms of agreement with the AI. AIとの合意の観点から、彼らの認証を正当化しました。 0.51
This suggests that these certification これはこれらの認定が 0.65
13 13 0.85
英語(論文から抽出)日本語訳スコア
Fig 4 Certifying the AI. A. 図4:AIの認定。 A。 0.74
The participants are more likely to certify the AI for trials when it is correct than when it is incorrect, but the example block is not reliably different from the no-example block. 参加者は、不正である場合よりも正しい場合にAIを試験のために認定する傾向にあるが、サンプルブロックは、非例ブロックと確実に異なるものではない。 0.77
The gray dashed line indicates chance performance, which in our task would be the result of always certifying the AI, never certifying the AI, or certifying at random. 灰色のダッシュラインは、確率パフォーマンスを示しており、私たちのタスクでは、常にaiを認証し、aiを認証しなかったり、ランダムに認証されたりする結果になります。
訳抜け防止モード: グレーの破線は、我々のタスクの成果であるチャンスパフォーマンスを示している。 常にAIを認証し、AIを認証しない、ランダムに認証する。
0.70
Error bars represent 95% bootstrapped confidence intervals. エラーバーは95%の自己ストラップ付き信頼区間を表す。 0.53
B. Participants certification decisions are predominantly driven by whether they agree with the AI or not. B。 参加者の認定決定は、AIに同意するかどうかによって大きく左右される。 0.67
Data are from 6 out of the 8 participants where we explicitly asked about their agreement with the AI’s diagnosis. 参加者8人のうち6人からのデータで、AIの診断との合意について明確に尋ねました。 0.72
judgements are grounded in participant errors, which in turn implies that the ground truth is not a 判断は参加者の誤りを根拠としており、それが根拠となる真理はaではないことを意味する。
訳抜け防止モード: 判断は参加者の誤りを根拠としており 根拠の真理はaではない。
0.68
reliable proxy of participant belief in this task. このタスクに参画する信頼ある信頼の代理人。 0.62
Because we are interested in how radiologists justify 放射線科医がどのようにして 0.48
certification in relation their own diagnostic judgements, we focus on 6 of the 8 participants that 診断上の判断との関係で 参加者8人のうち6人に焦点を合わせ 0.75
were explicitly asked if they agreed with the AI before they justified their certification decisions. 認定決定を正当化する前に、AIに同意するかどうか、明確に尋ねられた。 0.61
Certification decisions appear to be primarily driven by agreement with the AI, see Fig 4 B. 認証決定は、主にAIとの合意によって進められているようだ。
訳抜け防止モード: 認定決定は、主にAIとの合意によって進められているようだ。 図4Bを参照。
0.56
For the three cases where participants certified the AI despite disagreeing with it, they left open- 参加者が反対にもかかわらずAIを認定した3つのケースに対して、彼らはオープンにした。 0.53
ended responses clarifying their thinking. 考えを明確にする反応は終わりました 0.56
All of these responses suggest that they believed the AI これらの反応はすべて、AIを信じていることを示唆している 0.53
actually got the overall classification correct, but had either been too confident or not confident 全体的な分類は正しかったが 自信が強すぎたか 自信がなかったか 0.67
enough regarding pneumothorax elsewhere in the lung, based on the saliency map. 気胸は肺の他の部分で十分だ 塩分マップに基づいて 0.63
In the five cases where participants chose not to certify, the most common justifications were either that the 五つに 参加者が認定しない場合、最も一般的な正当性は、どちらかである。 0.60
AI was looking in the wrong place or open-ended responses. AIは間違った場所を見たり、オープンな反応をしていた。 0.57
Here the responses again allude to ここでも答えが返ってくる 0.67
getting judgements right for parts of the lung but making mistakes elsewhere, or that the AI has 肺の一部に対して正しい判断を下すが、他の場所でミスを犯すか、AIが持っていることを
訳抜け防止モード: 肺の一部で判断を下すが 他の場所でミスを犯す あるいはAIが
0.63
14 0.000.250.500.751.00 AI incorrectAI correctCertification probabilityExamplesN o examplesA36535202040 60Disagree with AI diagnosisAgree with AI diagnosisNumber of trialsNot certifiedCertifiedB 14 0.000.250.500.751.00 AI incorrectAI correctCertification probabilityExamplesN o ExampleA36535 20204060Disagree with AI diagnosisAgree with AI diagnosisNumber of trialNotertifiedB 0.73
英語(論文から抽出)日本語訳スコア
been performing poorly for a certain type of cases (e g lungs with prior surgical intervention or 特定の症例(例えば、術前の外科的介入を伴う肺など)に対して、パフォーマンスが悪くなっている 0.56
other pathology); therefore, despite the AI getting the particular case right, they would not want AIが特定のケースを正しく取得したとしても、彼らは望まない。 0.52
to certify it for similar images. 同様の画像で証明することです 0.72
Collectively these results illustrate that the explanations enable これらの結果は 説明によって 0.69
radiologists to engage in complex reasoning about the AI judgements and capacity. 放射線学者は、AIの判断と能力に関する複雑な推論に従事します。 0.53
4 Discussion In this study we have demonstrated that explanations generated by Bayesian Teaching help medical 4 討論 本研究では,ベイズ教養による説明が医療に役立つことを示す。 0.70
experts predict AI diagnoses and can be used to inform certification decisions. 専門家はai診断を予測し、認定決定に使用できる。 0.66
There are two main メインは2つあります 0.65
limitations of this study: because of challenges associated with recruiting medical experts our この研究の限界は 医療専門家を雇うことに関わる課題のためです 0.72
sample size is modest, and we have only demonstrated the effectiveness of our framework for a サンプルサイズは控えめで、aに対するフレームワークの有効性を実証しただけです。 0.64
single pathology (pneumothorax) and a single imaging type (x-rays). 単一の病理(気胸)と単一のイメージングタイプ(x線)。 0.71
We are currently working to 現在取り組んでいます 0.68
address both these limitations, as we are exploring additional recruitment channels to increase our この2つの制限に対処し 新たな採用チャネルを模索しています 0.57
sample for the current setup while designing variations of this experiment for other disorders (e g 他の障害(例)に対するこの実験のバリエーションを設計しながら、現在の設定のためのサンプル。
訳抜け防止モード: 現在の設定のサンプル 他の障害(eg)に対する この実験のバリエーションを設計し
0.86
melanoma, breast cancer) and imaging types (e g CT scans, MRI, ultrasound). 悪性黒色腫、乳癌)と画像(gCTスキャン、MRI、超音波など)。 0.70
Should our results generalise, they may have transformative impact on the medical domain by 結果が一般化すれば 医療領域に変化をもたらすかもしれません 0.63
speeding up (and reducing the risks associated with) large scale uptake of AI as decision support in 意思決定支援としてのAIの大規模獲得をスピードアップ(そしてリスクの低減)する 0.77
medical imaging. The result would be reduced wait times for diagnostic tests and freed up expert 医用画像。 その結果、診断試験の待ち時間を短縮し、専門家を解放する。 0.69
time to focus on challenging cases. 挑戦的な事件に集中する時間です 0.66
Because Bayesian Teaching is a mathematical framework that なぜならベイズ教育は数学的枠組みであるから 0.63
is agnostic about which model is to be explained and the means of explanation, it can easily be 説明すべきモデルや説明の手段が 分かりやすいことです 0.43
adapted to different diagnoses, AI systems, and imaging types with little overhead. オーバーヘッドが少ないさまざまな診断、AIシステム、イメージングタイプに適応する。 0.69
The flexibility of the method also invites applications beyond medicine. この手法の柔軟性は医療以外の応用も招いている。 0.64
This same method is applicable to other processes that require expert judgments about images including, for exam- 同様の方法 試験を含む画像に関する専門家の判断を必要とする他のプロセスに適用できる 0.75
ple, vehicular perception and self-driving in autonomous vehicles, insurance risk assessment, and 自動運転車における多彩な車両認識と自動運転、保険リスク評価等 0.72
15 15 0.85
英語(論文から抽出)日本語訳スコア
cyber-physical systems in manufacturing.22 Moving beyond image classification, Bayesian Teach- 製造におけるサイバー物理システム.22 画像分類を超越したベイズ教育- 0.59
ing as a framework can improve AI support in any human endeavour including finance, logistics, フレームワークとしてのingは、ファイナンス、ロジスティクスを含むあらゆる人間の取り組みにおけるAIサポートを改善することができる。 0.48
and law. By demonstrating that Bayesian-Teaching-ge nerated explanations can be used to teach 法律も バイーシアン・ティーチングによる説明が教えられることを示すことで 0.46
domain experts to predict AI decisions and reason about AI judgements, we provide evidence of ドメインの専門家がAIの決定を予測し、AIの判断を判断する 0.69
its suitability as an XAI method targeting end users in real-world settings. 現実世界の設定でエンドユーザをターゲットにしたXAIメソッドとして適しています。 0.59
Disclosures The authors declare no financial interests linked to this manuscript and no other forms of competing 開示 著者は、この写本に関連する金銭的利益を宣言せず、他の形態の競争もしていない 0.59
interests. Acknowledgments This material is based on research sponsored by the Air Force Research Laboratory and DARPA 興味がある 承認 この材料は、空軍研究所とDARPAが後援する研究に基づいている。 0.59
under agreement number FA8750-17-2-0146 to P.S. 合意番号 FA8750-17-2-0146 to P.S. 0.52
and S.C.-H.Y. The U.S. Government is autho- S.C.-H.Y. 米国政府はオートホーである 0.55
rized to reproduce and distribute reprints for Governmental purposes notwithstanding any copy- コピーがなくても、政府の目的のために再版を複製して配布すること 0.54
right notation thereon. This work was also supported by DoD grant 72531RTREP, NSF SMA-1640816, NSF MRI 正しい表記だ この研究はDoD grant 72531RTREP, NSF SMA-1640816, NSF MRIでも支持された。 0.57
1828528 to P.S.. 1828528 - P.S. 0.71
The methods described herein are covered under Provisional Application No. 本項で記載する方法は仮適用第1号に記載する。 0.54
62/774,976. 62/774,976. 0.50
References 1 S. Jha and E. J. Topol, “Adapting to artificial intelligence: radiologists and pathologists as 参考文献 1 S. Jha, E. J. Topol, “Adapting to Artificial Intelligence: Radioologists and pathologists as 0.80
information specialists,” Jama 316(22), 2353–2354 (2016). 情報スペシャリスト」jama 316(22)、2353-2354(2016)。 0.56
2 K.-H. Yu, A. L. Beam, and I. S. Kohane, “Artificial intelligence in healthcare,” Nature 2K-H. Yu, A. L. Beam, I. S. Kohane, “Artificial Intelligence in Health”, Nature 0.88
biomedical engineering 2(10), 719–731 (2018). バイオメディカルエンジニアリング 2(10), 719–731 (2018)。 0.86
16 16 0.85
英語(論文から抽出)日本語訳スコア
3 F. Pesapane, M. Codari, and F. Sardanelli, “Artificial intelligence in medical imaging: threat F. Pesapane, M. Codari, F. Sardanelli, “Artificial Intelligence in Medical imaging: threat” 0.85
or opportunity? radiologists again at the forefront of innovation in medicine,” European それともチャンス? 医学におけるイノベーションの最前線で放射線学者がまた現れた」 0.53
radiology experimental 2(1), 1–10 (2018). 放射線実験 2(1), 1–10 (2018) 0.73
4 X. Liu, L. Faes, A. U. Kale, et al , “A comparison of deep learning performance against 4 X. Liu, L. Faes, A. U. Kale, et al , “ディープラーニングのパフォーマンスの比較” 0.87
health-care professionals in detecting diseases from medical imaging: a systematic review 医用画像から疾患を検出する医療専門家の体系的考察 0.80
and meta-analysis,” The lancet digital health 1(6), e271–e297 (2019). The lancet digital health 1(6), e271–e297 (2019)。 0.58
5 F. Pesapane, C. Volont´e, M. Codari, et al , “Artificial intelligence as a medical device in 5 F. Pesapane, C. Volont ́e, M. Codari, et al , “医療機器としての人工知能” 0.83
radiology: ethical and regulatory issues in europe and the united states,” Insights into imaging 放射線医学:ヨーロッパと米国における倫理的・規制的問題 0.52
9(5), 745–753 (2018). 9(5), 745–753 (2018). 0.93
6 C. Liew, “The future of radiology augmented with artificial intelligence: a strategy for suc- 6 c. liew, “the future of radiology augmented with artificial intelligence: a strategy for suc” 0.89
cess,” European journal of radiology 102, 152–156 (2018). cess", european journal of radiology 102, 152–156 (2018)。 0.81
7 D. Gunning and D. Aha, “Darpa’s explainable artificial intelligence (xai) program,” AI Mag- 7 d. gunning and d. aha, “darpa’s explainable artificial intelligence (xai) program”, ai mag- 0.86
azine 40(2), 44–58 (2019). アジン40(2),44-58(2019)。 0.75
8 R. Guidotti, A. Monreale, S. Ruggieri, et al , “A survey of methods for explaining black box 8 R. Guidotti, A. Monreale, S. Ruggieri, et al , “A survey of Method of black box” 0.93
models,” ACM computing surveys (CSUR) 51(5), 1–42 (2018). ACM Computing Surveys (CSUR) 51(5), 1–42 (2018)。 0.61
9 A. Nguyen, J. Yosinski, and J. Clune, “Deep neural networks are easily fooled: High con- 9 A. Nguyen, J. Yosinski, J. Clune, “ディープニューラルネットワークは簡単に騙される。 0.74
fidence predictions for unrecognizable images,” in Proceedings of the IEEE conference on IEEEカンファレンスのProceedingsで、“認識不能な画像のフィデンス予測”と評された。 0.59
computer vision and pattern recognition, 427–436 (2015). コンピュータビジョンとパターン認識, 427-436 (2015)。 0.83
10 A. B. Arrieta, N. D´ıaz-Rodr´ıguez, J. Del Ser, et al , “Explainable artificial intelligence (xai): 10A。 B. Arrieta, N. D ́ıaz-Rodr ́ıguez, J. Del Ser, et al , “説明可能な人工知能(xai): 0.73
Concepts, taxonomies, opportunities and challenges toward responsible ai,” Information Fu- 責任あるAIに対する概念・分類・機会・課題」 0.42
sion 58, 82–115 (2020). sion 58, 82–115 (2020)。 0.82
11 T. Miller, P. Howe, and L. Sonenberg, “Explainable ai: Beware of inmates running the asylum 11 T. Miller, P. How, and L. Sonenberg, “Explainable ai: Be attention of inmates running the Asylum” 0.90
17 17 0.85
英語(論文から抽出)日本語訳スコア
or: How i learnt to stop worrying and love the social and behavioural sciences,” arXiv preprint あるいは: 心配しなくなり、社会的、行動科学を愛することを学びました」とarXivのプレプリントは語っています。 0.43
arXiv:1712.00547 (2017). arXiv:1712.00547 (2017)。 0.69
12 I. Lage, E. Chen, J. 12 I. Lage, E. Chen, J。 0.94
He, et al , “An evaluation of the human-interpretabili ty of explanation,” he, et al, "説明の人間的解釈可能性の評価" 0.80
arXiv preprint arXiv:1902.00006 (2019). arXiv preprint arXiv:1902.00006 (2019) 0.83
13 P. Shafto and N. D. Goodman, “Teaching games: Statistical sampling assumptions for learn- 13 P. Shafto and N. D. Goodman, “Teaching Games: Statistical sample assumptions for learn” 0.90
ing in pedagogical situations,” in Proceedings of the 30th annual conference of the Cognitive 第30回認知学会年次大会における「教育的状況におけるing」の実践 0.72
Science Society, Cognitive Science Society, (Austin, TX) (2008). The Science Society, Cognitive Science Society, (Austin, TX) (2008)。 0.87
14 P. Shafto, N. D. Goodman, and T. L. Griffiths, “A rational account of pedagogical reasoning: 14 P. Shafto, N. D. Goodman, T. L. Griffiths, “教育学的推論の合理的な説明: 0.79
Teaching by, and learning from, examples,” Cognitive Psychology 71, 55–89 (2014). と、cognitive psychology 71, 55–89 (2014) は述べている。 0.61
15 B. S. Eaves Jr, N. H. Feldman, T. L. Griffiths, et al , “Infant-directed speech is consistent with 15 B.S. Eaves Jr, N. H. Feldman, T. L. Griffiths, et al , “幼児指向の発話は一致している。 0.72
teaching.,” Psychological review 123(6), 758 (2016). teaching.”, psychological review 123(6), 758 (2016)。 0.72
16 K. P. Murphy, Machine learning: a probabilistic perspective, MIT press (2012). 16 K.P. Murphy, Machine Learning: a probabilistic perspective, MIT Press (2012)。 0.91
17 B. S. Eaves and P. Shafto, “Toward a general, scalable framework for Bayesian teaching with 17 B. S. Eaves と P. Shafto は,「ベイズ教育のための汎用的でスケーラブルなフレームワーク 0.79
applications to topic models,” in IJCAI 2016 workshop on Interactive Machine Learning, 対話型機械学習に関するijcai 2016ワークショップ"トピックモデルへの適用" 0.74
(2016). 18 S. C.-H. Yang, W. K. Vong, R. B. Sojitra, et al , “Mitigating belief projection in explainable (2016). 18 S.C.-H. Yang, W.K. Vong, R.B. Sojitra, et al , “Mitigating belief projection in explainable” 0.82
artificial intelligence via bayesian teaching,” Scientific Reports 11(1), 1–17 (2021). ai via bayesian teaching”. scientific reports 11(1), 1–17 (2021) 0.60
19 A. Anuar, “SIIM–ACR Pneumothorax Segmentation.” https://github.com/ 19年。 SIIM–ACR Pneumothorax Segmentation" https://github.com/ 0.51
sneddy/pneumothorax- segmentation (2019). sneddy/pneumothorax- segmentation (2019)。 0.64
20 J. D. Hunter, “Matplotlib: A 2d graphics environment,” Computing in Science & Engineering 20 J.D. Hunter, “Matplotlib: A 2d graphics environment”, Computing in Science & Engineering 0.93
9(3), 90–95 (2007). 9(3), 90–95 (2007). 0.93
18 18 0.85
英語(論文から抽出)日本語訳スコア
21 A. Vehtari, A. Gelman, and J. Gabry, “Practical bayesian model evaluation using leave-one- 21 A. Vehtari, A. Gelman, J. Gabry, “Practical Bayesian model evaluation using leave-one” 0.87
out cross-validation and waic,” Statistics and computing 27(5), 1413–1432 (2017). と統計と計算は27(5), 1413–1432 (2017) である。 0.57
22 K. R. Varshney and H. Alemzadeh, “On the safety of machine learning: Cyber-physical 22 k. r. varshneyとh. alemzadeh: “on the safety of machine learning: cyber-physical” 0.76
systems, decision sciences, and data products,” Big data 5(3), 246–255 (2017). systems, decision sciences, and data products” big data 5(3), 246–255 (2017)。 0.80
List of Figures 1 Selection of explanatory examples and saliency maps with Bayesian Teaching. 人物一覧 1 ベイズ教示による説明例と敬礼地図の選定 0.64
The inputs to Bayesian Teaching are: the target image x∗ and the label c∗ predicted by ベイズ教育への入力は次のとおりである:対象画像 x∗ とラベル c∗ は予測される 0.47
the target model; the training dataset; and the learner model, which is a program that computes PL(Θ|D). 対象モデル、トレーニングデータセット、学習者モデル、pl(θ|d)を計算するプログラム。 0.60
The green box depicts the inner working of Bayesian 緑の箱はベイジアンの内部作業を示しています 0.69
Teaching. Image sets D that satisfy PT (D) are sampled at random. 教える。 PT(D)を満たす画像集合Dをランダムにサンプリングする。 0.64
The learner model takes in a large number of random trials (each row of {x∗, D}) to produce the unnormalized teaching probabilities. 学習モデルは多数のランダムな試行(それぞれ {x∗, D} の行)を取り入れ、正規化されていない教育確率を生成する。 0.76
Here, a set D with probability ≈ 1 is se- ここで、確率が 1 の集合 D は se である。 0.75
lected as the explanatory example. 解説例として引用します 0.51
The final output is a set of ten images: the target 最終的な出力は10の画像の集合である:ターゲット 0.88
image, the four examples selected, and the saliency maps of these five images. 画像 選ばれた4つの例 この5つの画像の 鮮度マップです 0.68
The saliency maps are generated from the target model (AlbuNet). saliency mapはターゲットモデル(AlbuNet)から生成される。 0.56
2 A. Trial structure for the different blocks. 2 A。 異なるブロックの試行構造。 0.74
B. Experimental Design. B。 実験デザイン。 0.77
19 19 0.85
英語(論文から抽出)日本語訳スコア
3 Diagnosing and predicting pneumothorax. 3 気胸の診断と予測 0.76
A. The participants can reliably iden- A。 参加者は確実に身元を特定できる 0.63
tify cases when pneumothorax is present. 気胸がある場合のtify症例。 0.60
B. The participants can reliably predict B。 参加者は確実に予測できます 0.73
AI classifications. C. The participants can reliably predict AI classification even AI分類。 C.参加者はAI分類を確実に予測できる 0.79
when controlling for their own first order diagnoses. 自己の一次診断のために コントロールする時です 0.62
(A & B) Light blue points (A&B)ライトブルーポイント 0.72
capture unique trials; red diamonds and lines capture individual participants; and 独特な試練を捉え レッドダイアモンドとラインは個々の参加者を捕らえ 0.70
black lines and points capture the group level trends. ブラックラインとポイントは グループレベルの傾向を捉えます 0.83
Error bars represent 95% エラーバーは95%を表す 0.67
bootstrapped confidence intervals. ブートストラップされた信頼区間。 0.41
(C) Points indicate trial-level observations. (C)試験レベルの観測点。 0.69
The probability ribbon capture the posterior distributions of the regression lines from 確率リボンは、回帰線の後方分布をキャプチャする 0.52
the hierarchical Bayesian model. 階層的ベイズモデルです 0.63
4 Certifying the AI. A. 4 AIの認定。 A。 0.77
The participants are more likely to certify the AI for trials 参加者はAIを試験のために認定する可能性が高い 0.63
when it is correct than when it is incorrect, but the example block is not reliably 正しくない場合よりも正確ですが 例のブロックは確実ではありません 0.60
different from the no-example block. no-exampleブロックとは異なる。 0.80
The gray dashed line indicates chance perfor- グレーの破線は1対1のチャンスを示す 0.54
mance, which in our task would be the result of always certifying the AI, never cer- 私たちのタスクでは、AIを常に認証し、決して証明しない結果になります。 0.59
tifying the AI, or certifying at random. AIを認証するか、ランダムに認証する。 0.72
Error bars represent 95% bootstrapped con- エラーバーは95%のブートストラップcon- 0.66
fidence intervals. B. フィデンス間隔。 B。 0.62
Participants certification decisions are predominantly driven 参加者の認定決定は 主に 0.83
by whether they agree with the AI or not. 彼らがAIに同意するかどうかです 0.69
Data are from 6 out of the 8 participants 参加者8人中6人からのデータ 0.77
where we explicitly asked about their agreement with the AI’s diagnosis. そこで私たちは、AIの診断との合意について明確に質問しました。 0.55
20 20 0.85
                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。