論文の概要: RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain
- arxiv url: http://arxiv.org/abs/2403.14578v1
- Date: Thu, 21 Mar 2024 17:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:20:11.446504
- Title: RAmBLA: A Framework for Evaluating the Reliability of LLMs as Assistants in the Biomedical Domain
- Title(参考訳): RAmBLA : バイオメディカル領域におけるLCMの信頼性評価フレームワーク
- Authors: William James Bolton, Rafael Poyiadzi, Edward R. Morrell, Gabriela van Bergen Gonzalez Bueno, Lea Goetz,
- Abstract要約: 本稿では,バイオメディカルLLMアシスタントフレームワークの信頼性評価について紹介する。
バイオメディカル領域において,4つの技術基盤 LLM が信頼性の高いアシスタントとして機能するかどうかを検証した。
- 参考スコア(独自算出の注目度): 0.37282630026096586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly support applications in a wide range of domains, some with potential high societal impact such as biomedicine, yet their reliability in realistic use cases is under-researched. In this work we introduce the Reliability AssesMent for Biomedical LLM Assistants (RAmBLA) framework and evaluate whether four state-of-the-art foundation LLMs can serve as reliable assistants in the biomedical domain. We identify prompt robustness, high recall, and a lack of hallucinations as necessary criteria for this use case. We design shortform tasks and tasks requiring LLM freeform responses mimicking real-world user interactions. We evaluate LLM performance using semantic similarity with a ground truth response, through an evaluator LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、バイオメディシンのような潜在的に高い社会的影響を持つ領域でアプリケーションをサポートする傾向にあるが、現実的なユースケースにおける信頼性は低い。
本研究では,バイオメディカルLLMアシスタントのための信頼性評価フレームワーク(RAmBLA)を紹介し,バイオメディカルドメインにおける信頼性の高いアシスタントとして,4つの最先端のLLMが機能するかどうかを評価する。
本症例では, 迅速な堅牢性, 高いリコール, 幻覚の欠如を要件として検討した。
実世界のユーザインタラクションを模倣したLLMフリーフォーム応答を必要とするショートフォームタスクとタスクを設計する。
我々は,LLMの評価器を用いて,基底真理応答と意味的類似性を用いてLLMの性能を評価する。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。
LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文 参考訳(メタデータ) (2024-08-22T09:37:40Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。
また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。
以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文 参考訳(メタデータ) (2024-05-21T11:50:16Z) - Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research [3.4245017707416157]
本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。
ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T06:00:14Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。