論文の概要: Towards Unbiased Evaluation of Detecting Unanswerable Questions in EHRSQL
- arxiv url: http://arxiv.org/abs/2405.01588v1
- Date: Mon, 29 Apr 2024 02:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 16:58:34.539572
- Title: Towards Unbiased Evaluation of Detecting Unanswerable Questions in EHRSQL
- Title(参考訳): EHRSQLにおける疑わしい質問の非バイアス評価に向けて
- Authors: Yongjin Yang, Sihyeon Kim, SangMook Kim, Gyubok Lee, Se-Young Yun, Edward Choi,
- Abstract要約: EHRデータセットは、実用的な質問とともに、EHR QAシステムに解決不可能な質問を組み込んだ唯一のデータセットである。
このようなバイアスは、QAシステム評価の信頼性と信頼性を損なう。
そこで本研究では,N-gram フィルタの冗長な影響を和らげるために,単純なデバイアス法を提案する。
- 参考スコア(独自算出の注目度): 30.18829711470215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating unanswerable questions into EHR QA systems is crucial for testing the trustworthiness of a system, as providing non-existent responses can mislead doctors in their diagnoses. The EHRSQL dataset stands out as a promising benchmark because it is the only dataset that incorporates unanswerable questions in the EHR QA system alongside practical questions. However, in this work, we identify a data bias in these unanswerable questions; they can often be discerned simply by filtering with specific N-gram patterns. Such biases jeopardize the authenticity and reliability of QA system evaluations. To tackle this problem, we propose a simple debiasing method of adjusting the split between the validation and test sets to neutralize the undue influence of N-gram filtering. By experimenting on the MIMIC-III dataset, we demonstrate both the existing data bias in EHRSQL and the effectiveness of our data split strategy in mitigating this bias.
- Abstract(参考訳): EHR QAシステムに解決不可能な質問を組み込むことは、システムの信頼性をテストする上で不可欠である。
EHRSQLデータセットは、実用的な質問とともに、EHR QAシステムに解決不可能な質問を組み込んだ唯一のデータセットであるため、有望なベンチマークとして際立っている。
しかし、本研究では、これらの未解決問題におけるデータバイアスを識別し、特定のN-gramパターンをフィルタリングすることで、しばしば識別することができる。
このようなバイアスは、QAシステム評価の信頼性と信頼性を損なう。
この問題に対処するため,N-gram フィルタの冗長な影響を和らげるために,検証セットとテストセットの分割を調整する簡易なデバイアス法を提案する。
MIMIC-IIIデータセットを用いて実験することにより、EHRSQLにおける既存のデータバイアスと、このバイアスを軽減するためのデータ分割戦略の有効性を実証する。
関連論文リスト
- LG AI Research & KAIST at EHRSQL 2024: Self-Training Large Language Models with Pseudo-Labeled Unanswerable Questions for a Reliable Text-to-SQL System on EHRs [58.59113843970975]
テキストから回答へのモデルは、Electronic Health Recordsを知識のない医療専門家に利用できるようにする上で重要なものだ。
疑似ラベル付き非解答質問を用いた自己学習戦略を提案し,EHRのテキスト・ツー・アンサーモデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-05-18T03:25:44Z) - Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。
実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Are Bias Mitigation Techniques for Deep Learning Effective? [24.84797949716142]
改良された評価プロトコル、有能なメトリクス、新しいデータセットを導入する。
我々は、同じネットワークアーキテクチャを用いて、7つの最先端アルゴリズムを評価する。
アルゴリズムは隠れバイアスを悪用し、複数の形式のバイアスにスケールできず、チューニングセットの選択に非常に敏感であることがわかった。
論文 参考訳(メタデータ) (2021-04-01T00:14:45Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Towards Accurate and Consistent Evaluation: A Dataset for
Distantly-Supervised Relation Extraction [14.958043759503658]
新しいデータセットNYTHを構築し、DS生成データをトレーニングデータとして使用し、アノテータを採用してテストデータのラベル付けを行います。
以前のデータセットと比較すると、NYT-Hははるかに大きなテストセットを持ち、より正確で一貫した評価を行うことができます。
実験結果から,DSラベル付きテストデータと人間アノテーション付きテストデータとでは,比較システムのランキング表が異なることが明らかとなった。
論文 参考訳(メタデータ) (2020-10-30T13:52:52Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。