論文の概要: ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination
- arxiv url: http://arxiv.org/abs/2305.12945v1
- Date: Mon, 22 May 2023 11:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:33:26.374955
- Title: ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination
- Title(参考訳): ExplainCPE:中国薬剤師試験のフリーテキスト説明ベンチマーク
- Authors: Dongfang Li, Jindi Yu, Baotian Hu, Zhenran Xu and Min Zhang
- Abstract要約: 既存の説明データセットは主に英語の一般的な知識に関する質問である。
有理性QAデータセットの生成における言語バイアスと医療資源の欠如に対処するために, ExplainCPEを提案する。
- 参考スコア(独自算出の注目度): 15.413517172429808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As ChatGPT and GPT-4 spearhead the development of Large Language Models
(LLMs), more researchers are investigating their performance across various
tasks. But more research needs to be done on the interpretability capabilities
of LLMs, that is, the ability to generate reasons after an answer has been
given. Existing explanation datasets are mostly English-language general
knowledge questions, which leads to insufficient thematic and linguistic
diversity. To address the language bias and lack of medical resources in
generating rationales QA datasets, we present ExplainCPE (over 7k instances), a
challenging medical benchmark in Simplified Chinese. We analyzed the errors of
ChatGPT and GPT-4, pointing out the limitations of current LLMs in
understanding text and computational reasoning. During the experiment, we also
found that different LLMs have different preferences for in-context learning.
ExplainCPE presents a significant challenge, but its potential for further
investigation is promising, and it can be used to evaluate the ability of a
model to generate explanations. AI safety and trustworthiness need more
attention, and this work makes the first step to explore the medical
interpretability of LLMs.The dataset is available at
https://github.com/HITsz-TMG/ExplainCPE.
- Abstract(参考訳): ChatGPTとGPT-4がLarge Language Models (LLMs)の開発を先導するにつれ、多くの研究者が様々なタスクでその性能を調査している。
しかし、LSMの解釈可能性、すなわち、答えが与えられた後に理由を生成できる能力について、さらなる研究が必要とされる。
既存の説明データセットは主に英語の一般知識の問題であり、テーマや言語的な多様性は不十分である。
合理的なQAデータセットを生成する際の言語バイアスと医療資源の欠如に対処するため、簡体字中国語で難しい医療ベンチマークであるExplainCPE(7kインスタンス以上)を提示する。
chatgpt と gpt-4 の誤りを分析し,テキスト理解と計算推論における現在の llm の限界を指摘した。
実験では、異なるLLMが文脈内学習の好みが異なることも見出した。
ExplainCPEは重要な課題を示すが、さらなる調査の可能性は有望であり、モデルが説明を生成する能力を評価するために使用できる。
AIの安全性と信頼性をより重視する必要がある。この研究は、LSMの医学的解釈可能性を調べるための第一歩となる。データセットはhttps://github.com/HITsz-TMG/ExplainCPEで公開されている。
関連論文リスト
- MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - XplainLLM: A QA Explanation Dataset for Understanding LLM
Decision-Making [13.928951741632815]
大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。
本稿では、新しい説明データセットを導入することにより、このプロセスに透明性をもたらすことを検討する。
我々のデータセットには12,102のQAEトリプルが含まれている。
論文 参考訳(メタデータ) (2023-11-15T00:34:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。