論文の概要: Physician Detection of Clinical Harm in Machine Translation: Quality
Estimation Aids in Reliance and Backtranslation Identifies Critical Errors
- arxiv url: http://arxiv.org/abs/2310.16924v1
- Date: Wed, 25 Oct 2023 18:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:44:05.457791
- Title: Physician Detection of Clinical Harm in Machine Translation: Quality
Estimation Aids in Reliance and Backtranslation Identifies Critical Errors
- Title(参考訳): 機械翻訳における臨床的危害の医師による検出 : 信頼性と逆翻訳の質推定支援による致命的な誤りの特定
- Authors: Nikita Mehandru, Sweta Agrawal, Yimin Xiao, Elaine C Khoong, Ge Gao,
Marine Carpuat, Niloufar Salehi
- Abstract要約: そこで本研究では,ハイテイクな医療環境における意思決定をシミュレーションしたヒト実験を用いて,生体内品質評価のフィードバックを評価する。
品質評価はMTへの適切な依存を改善するが、逆翻訳はQE単独で見逃されるより臨床的に有害なエラーを検出するのに役立つ。
- 参考スコア(独自算出の注目度): 27.13497855061732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in the practical use of Machine Translation (MT) is that
users lack guidance to make informed decisions about when to rely on outputs.
Progress in quality estimation research provides techniques to automatically
assess MT quality, but these techniques have primarily been evaluated in vitro
by comparison against human judgments outside of a specific context of use.
This paper evaluates quality estimation feedback in vivo with a human study
simulating decision-making in high-stakes medical settings. Using Emergency
Department discharge instructions, we study how interventions based on quality
estimation versus backtranslation assist physicians in deciding whether to show
MT outputs to a patient. We find that quality estimation improves appropriate
reliance on MT, but backtranslation helps physicians detect more clinically
harmful errors that QE alone often misses.
- Abstract(参考訳): MT(Machine Translation)の実践上の大きな課題は、ユーザがいつアウトプットに依存するべきかを判断するためのガイダンスが欠けていることだ。
品質推定研究の進歩は、MT品質を自動評価する技術を提供するが、これらの技術は主に特定の使用状況以外の人間の判断との比較によってin vitroで評価されてきた。
本稿では,高リスク医療における意思決定をシミュレートした人間実験を用いて,生体内品質推定フィードバックの評価を行う。
救急部退院指示を用いて,患者にMT出力を提示するかどうかを判断するために,品質推定とバックトランスレーション支援の介入方法を検討した。
品質評価はMTへの適切な依存を改善するが、逆翻訳はQE単独で見逃されるより臨床的に有害なエラーを検出するのに役立つ。
関連論文リスト
- Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation [2.7379431425414693]
本稿では,大規模言語モデル(LLM)を用いて,Q&Aシステムにおける応答評価を自動化する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-03T14:38:29Z) - Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA [24.10436440624249]
大規模マルチモーダルモデル(LMM)は医療用視覚質問応答(Med-VQA)において顕著な進歩を示した
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
論文 参考訳(メタデータ) (2024-05-30T18:56:01Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。