論文の概要: CLIFT: Analysing Natural Distribution Shift on Question Answering Models
in Clinical Domain
- arxiv url: http://arxiv.org/abs/2310.13146v1
- Date: Thu, 19 Oct 2023 20:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:14:22.784081
- Title: CLIFT: Analysing Natural Distribution Shift on Question Answering Models
in Clinical Domain
- Title(参考訳): CLIFT:臨床領域における質問応答モデルによる自然分布変化の分析
- Authors: Ankit Pal
- Abstract要約: 本稿では,臨床領域質問応答タスクのための新しいテストベッドCLIFT(Clinical Shift)を提案する。
テストベッドには、多様な信頼性のあるベンチマークを提供するために7.5kの高品質な質問応答サンプルが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new testbed CLIFT (Clinical Shift) for the clinical
domain Question-answering task. The testbed includes 7.5k high-quality question
answering samples to provide a diverse and reliable benchmark. We performed a
comprehensive experimental study and evaluated several QA deep-learning models
under the proposed testbed. Despite impressive results on the original test
set, the performance degrades when applied to new test sets, which shows the
distribution shift. Our findings emphasize the need for and the potential for
increasing the robustness of clinical domain models under distributional
shifts. The testbed offers one way to track progress in that direction. It also
highlights the necessity of adopting evaluation metrics that consider
robustness to natural distribution shifts. We plan to expand the corpus by
adding more samples and model results. The full paper and the updated benchmark
are available at github.com/openlifescience-ai/clift
- Abstract(参考訳): 本稿では,臨床領域質問応答タスクのための新しいテストベッドCLIFT(Clinical Shift)を提案する。
テストベッドには7.5kの質の高い質問応答サンプルが含まれており、多様で信頼性の高いベンチマークを提供する。
総合的な実験を行い,提案するテストベッド下でのqa深層学習モデルの評価を行った。
オリジナルのテストセットでの印象的な結果にもかかわらず、新しいテストセットに適用するとパフォーマンスは低下し、分散シフトを示す。
本研究は, 分布変化による臨床領域モデルの堅牢性向上の必要性と可能性を強調した。
テストベッドは、その方向の進捗を追跡する一つの方法を提供する。
また,自然分布変化に対するロバスト性を考慮した評価指標の採用の必要性を強調する。
より多くのサンプルとモデル結果を追加してコーパスを拡張する予定です。
全紙と最新のベンチマークはgithub.com/openlifescience-ai/cliftで公開されている。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - Continual Test-time Domain Adaptation via Dynamic Sample Selection [38.82346845855512]
本稿では,連続テスト時間領域適応(CTDA)のための動的サンプル選択法を提案する。
誤情報を誤用するリスクを低減するため,高品質と低品質の両方のサンプルに共同正負の学習を適用した。
私たちのアプローチは3Dポイントのクラウドドメインでも評価されており、その汎用性とより広範な適用可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T06:35:21Z) - A Continual Learning Approach for Cross-Domain White Blood Cell
Classification [36.482007703764154]
白血球分類におけるクラスインクリメンタルおよびドメインインクリメンタルシナリオに対するリハーサルに基づく連続学習手法を提案する。
従来のタスクから代表サンプルを選択するために,モデルの予測に基づいてセット選択を用いる。
色,解像度,クラス組成が異なる3つの白血球分類データセットについて,提案手法を徹底的に評価した。
論文 参考訳(メタデータ) (2023-08-24T09:38:54Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - The Effect of Natural Distribution Shift on Question Answering Models [38.124695117116936]
スタンフォード質問回答データセット(SQuAD)のための4つの新しいテストセットを構築した。
我々は,質問応答システムの新たなデータへの一般化能力を評価する。
論文 参考訳(メタデータ) (2020-04-29T19:34:19Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。