Fugu-MT 論文翻訳(概要): Zero-shot Generative Large Language Models for Systematic Review Screening Automation

論文の概要: Zero-shot Generative Large Language Models for Systematic Review Screening Automation

arxiv url: http://arxiv.org/abs/2401.06320v2
Date: Thu, 1 Feb 2024 02:08:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 18:24:21.596217
Title: Zero-shot Generative Large Language Models for Systematic Review Screening Automation
Title（参考訳）: レビュー自動化のためのゼロショット大言語モデル
Authors: Shuai Wang, Harrisen Scells, Shengyao Zhuang, Martin Potthast, Bevan Koopman, Guido Zuccon
Abstract要約: 本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
参考スコア（独自算出の注目度）: 55.403958106416574
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Systematic reviews are crucial for evidence-based medicine as they comprehensively analyse published research findings on specific questions. Conducting such reviews is often resource- and time-intensive, especially in the screening phase, where abstracts of publications are assessed for inclusion in a review. This study investigates the effectiveness of using zero-shot large language models~(LLMs) for automatic screening. We evaluate the effectiveness of eight different LLMs and investigate a calibration technique that uses a predefined recall threshold to determine whether a publication should be included in a systematic review. Our comprehensive evaluation using five standard test collections shows that instruction fine-tuning plays an important role in screening, that calibration renders LLMs practical for achieving a targeted recall, and that combining both with an ensemble of zero-shot models saves significant screening time compared to state-of-the-art approaches.
Abstract（参考訳）: 体系的レビューは、特定の質問に関する研究成果を包括的に分析する上で、エビデンスベースの医療にとって不可欠である。このようなレビューの実施は、特にレビューに含めるために出版物の要約を評価するスクリーニングフェーズにおいて、リソースと時間に重きを置くことが多い。本研究では,ゼロショット大言語モデル~(LLM)を用いた自動スクリーニングの有効性を検討した。我々は,8種類のLCMの有効性を評価し,事前定義されたリコール閾値を用いて,出版物を体系的なレビューに含めるべきかどうかを判定する校正手法を検討した。 5つの標準テストコレクションを用いた包括的評価により,指示の微調整がスクリーニングにおいて重要な役割を担っていること,キャリブレーションが目標リコールを達成するためにllmを実用的なものにすること,ゼロショットモデルのアンサンブルと組み合わせることで,最先端のアプローチに比べて大きなスクリーニング時間を節約できることが確認された。

関連論文リスト

EQ-5D Classification Using Biomedical Entity-Enriched Pre-trained Language Models and Multiple Instance Learning [0.42970700836450487]
健康経済学において、体系的な文献レビューは、EQ-5Dを使用する出版物の正しい識別に依存している。大量の科学文献の手作業によるスクリーニングは、時間を要する、エラーを起こし、一貫性がない。本研究では,汎用言語モデル(BERT)とドメイン固有言語モデル(SciBERT, BioBERT)の微調整について検討する。
論文参考訳（メタデータ） (2026-01-30T20:10:34Z)
Leveraging LLMs for Title and Abstract Screening for Systematic Review: A Cost-Effective Dynamic Few-Shot Learning Approach [4.746720136392869]
本稿では,大言語モデル(LLM)のタイトルと抽象的なスクリーニング作業における効率と性能を改善するために,2段階の動的数ショット学習手法を提案する。提案手法を10の体系的レビューで評価し,その高い一般化性と費用対効果を実証した。
論文参考訳（メタデータ） (2025-12-12T03:51:54Z)
Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models [5.398283020969301]
LLM(Large Language Model)は、構造化されていない臨床転写のセマンティック解析をサポートする。既存の評価方法は大きく異なり、進歩を妨げ、研究全体で有意義なベンチマークを防ぐ。本稿では,妥当性,信頼性,解釈可能性の3つの側面に着目した評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-18T04:02:00Z)
Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。 Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文参考訳（メタデータ） (2025-09-13T15:03:34Z)
LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews [0.9314555897827079]
体系的な文献レビューは、トピックに関するすべての関連論文を特定し評価することを目的としている。現在までに、大型言語モデル(LLM)を用いた抽象的なスクリーニング手法はバイナリ分類設定に重点を置いている。ゼロショットLLMガイド付き抽象ランクラであるLGARを提案する。
論文参考訳（メタデータ） (2025-05-30T16:18:50Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文参考訳（メタデータ） (2024-12-18T08:42:25Z)
Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文参考訳（メタデータ） (2024-12-16T02:47:44Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。トレーニングデータと評価データセットの重複がパフォーマンス評価を膨らませる。データ汚染検出に関する47の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文参考訳（メタデータ） (2024-10-24T17:58:22Z)
Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文参考訳（メタデータ） (2024-06-25T20:52:31Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)
Automating Document Classification with Distant Supervision to Increase the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文参考訳（メタデータ） (2020-12-09T22:45:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。