論文の概要: Zero-shot Generative Large Language Models for Systematic Review
Screening Automation
- arxiv url: http://arxiv.org/abs/2401.06320v2
- Date: Thu, 1 Feb 2024 02:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:24:21.596217
- Title: Zero-shot Generative Large Language Models for Systematic Review
Screening Automation
- Title(参考訳): レビュー自動化のためのゼロショット大言語モデル
- Authors: Shuai Wang, Harrisen Scells, Shengyao Zhuang, Martin Potthast, Bevan
Koopman, Guido Zuccon
- Abstract要約: 本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
- 参考スコア(独自算出の注目度): 55.403958106416574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Systematic reviews are crucial for evidence-based medicine as they
comprehensively analyse published research findings on specific questions.
Conducting such reviews is often resource- and time-intensive, especially in
the screening phase, where abstracts of publications are assessed for inclusion
in a review. This study investigates the effectiveness of using zero-shot large
language models~(LLMs) for automatic screening. We evaluate the effectiveness
of eight different LLMs and investigate a calibration technique that uses a
predefined recall threshold to determine whether a publication should be
included in a systematic review. Our comprehensive evaluation using five
standard test collections shows that instruction fine-tuning plays an important
role in screening, that calibration renders LLMs practical for achieving a
targeted recall, and that combining both with an ensemble of zero-shot models
saves significant screening time compared to state-of-the-art approaches.
- Abstract(参考訳): 体系的レビューは、特定の質問に関する研究成果を包括的に分析する上で、エビデンスベースの医療にとって不可欠である。
このようなレビューの実施は、特にレビューに含めるために出版物の要約を評価するスクリーニングフェーズにおいて、リソースと時間に重きを置くことが多い。
本研究では,ゼロショット大言語モデル~(LLM)を用いた自動スクリーニングの有効性を検討した。
我々は,8種類のLCMの有効性を評価し,事前定義されたリコール閾値を用いて,出版物を体系的なレビューに含めるべきかどうかを判定する校正手法を検討した。
5つの標準テストコレクションを用いた包括的評価により,指示の微調整がスクリーニングにおいて重要な役割を担っていること,キャリブレーションが目標リコールを達成するためにllmを実用的なものにすること,ゼロショットモデルのアンサンブルと組み合わせることで,最先端のアプローチに比べて大きなスクリーニング時間を節約できることが確認された。
関連論文リスト
- System for systematic literature review using multiple AI agents:
Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。
このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。
関連する学術論文を検索するために使用される検索文字列を生成する。
モデルはこれらの論文の要約を自律的に要約する。
論文 参考訳(メタデータ) (2024-03-13T10:27:52Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - A Survey of the Impact of Self-Supervised Pretraining for Diagnostic
Tasks with Radiological Images [71.26717896083433]
自己教師付き事前学習は,伝達学習における特徴表現の改善に有効であることが観察されている。
本総説ではX線, CT, 磁気共鳴, 超音波画像における使用法について概説する。
論文 参考訳(メタデータ) (2023-09-05T19:45:09Z) - FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes
and Biases in Large Language Models [10.57405233305553]
本稿では,Large Language Models(LLMs)の生成したコンテンツのステレオタイプとバイアスを直接評価する4段階フレームワークを提案する。
教育部門を事例研究として,4段階の枠組みに基づくEdu-FairMonitorを構築した。
実験結果から,Edu-FairMonitorで評価された5つのLDMのステレオタイプとバイアスの程度が異なっていた。
論文 参考訳(メタデータ) (2023-08-21T00:25:17Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - A Thorough Examination on Zero-shot Dense Retrieval [84.70868940598143]
本稿では,高密度検索(DR)モデルのゼロショット能力について,初めて徹底的に検討する。
我々は、ソーストレーニングセットに関連するいくつかの重要な要素の効果を議論し、ターゲットデータセットから潜在的なバイアスを分析し、既存のゼロショットDRモデルをレビューし、比較する。
論文 参考訳(メタデータ) (2022-04-27T07:59:07Z) - Best Practices and Scoring System on Reviewing A.I. based Medical
Imaging Papers: Part 1 Classification [0.9428556282541211]
SIIMの機械学習教育サブミッションは、これらの研究をレビューするためのガイドラインを確立するための知識ギャップと深刻な必要性を特定している。
このシリーズの最初のエントリは、画像分類のタスクに焦点を当てている。
このシリーズの目的は、A.I.をベースとした医療画像のレビュープロセスを改善するためのリソースを提供することである。
論文 参考訳(メタデータ) (2022-02-03T21:46:59Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z) - An Extensive Study on Cross-Dataset Bias and Evaluation Metrics
Interpretation for Machine Learning applied to Gastrointestinal Tract
Abnormality Classification [2.985964157078619]
GI領域における疾患の自動解析は、コンピュータ科学や医学関連雑誌でホットな話題となっている。
クロスデータセットによる評価指標と機械学習モデルの明確な理解は、この分野の研究を新たな品質レベルに導くために不可欠である。
16種類のGIトラクタ条件を分類できる5つの異なる機械学習モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2020-05-08T08:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。