論文の概要: ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination
- arxiv url: http://arxiv.org/abs/2305.12945v1
- Date: Mon, 22 May 2023 11:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:33:26.374955
- Title: ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination
- Title(参考訳): ExplainCPE:中国薬剤師試験のフリーテキスト説明ベンチマーク
- Authors: Dongfang Li, Jindi Yu, Baotian Hu, Zhenran Xu and Min Zhang
- Abstract要約: 既存の説明データセットは主に英語の一般的な知識に関する質問である。
有理性QAデータセットの生成における言語バイアスと医療資源の欠如に対処するために, ExplainCPEを提案する。
- 参考スコア(独自算出の注目度): 15.413517172429808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As ChatGPT and GPT-4 spearhead the development of Large Language Models
(LLMs), more researchers are investigating their performance across various
tasks. But more research needs to be done on the interpretability capabilities
of LLMs, that is, the ability to generate reasons after an answer has been
given. Existing explanation datasets are mostly English-language general
knowledge questions, which leads to insufficient thematic and linguistic
diversity. To address the language bias and lack of medical resources in
generating rationales QA datasets, we present ExplainCPE (over 7k instances), a
challenging medical benchmark in Simplified Chinese. We analyzed the errors of
ChatGPT and GPT-4, pointing out the limitations of current LLMs in
understanding text and computational reasoning. During the experiment, we also
found that different LLMs have different preferences for in-context learning.
ExplainCPE presents a significant challenge, but its potential for further
investigation is promising, and it can be used to evaluate the ability of a
model to generate explanations. AI safety and trustworthiness need more
attention, and this work makes the first step to explore the medical
interpretability of LLMs.The dataset is available at
https://github.com/HITsz-TMG/ExplainCPE.
- Abstract(参考訳): ChatGPTとGPT-4がLarge Language Models (LLMs)の開発を先導するにつれ、多くの研究者が様々なタスクでその性能を調査している。
しかし、LSMの解釈可能性、すなわち、答えが与えられた後に理由を生成できる能力について、さらなる研究が必要とされる。
既存の説明データセットは主に英語の一般知識の問題であり、テーマや言語的な多様性は不十分である。
合理的なQAデータセットを生成する際の言語バイアスと医療資源の欠如に対処するため、簡体字中国語で難しい医療ベンチマークであるExplainCPE(7kインスタンス以上)を提示する。
chatgpt と gpt-4 の誤りを分析し,テキスト理解と計算推論における現在の llm の限界を指摘した。
実験では、異なるLLMが文脈内学習の好みが異なることも見出した。
ExplainCPEは重要な課題を示すが、さらなる調査の可能性は有望であり、モデルが説明を生成する能力を評価するために使用できる。
AIの安全性と信頼性をより重視する必要がある。この研究は、LSMの医学的解釈可能性を調べるための第一歩となる。データセットはhttps://github.com/HITsz-TMG/ExplainCPEで公開されている。
関連論文リスト
- Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Quantitative knowledge retrieval from large language models [4.155711233354597]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
本稿では,データ解析作業を支援するための定量的知識検索のメカニズムとして,LLMの実現可能性について検討する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - XplainLLM: A QA Explanation Dataset for Understanding LLM
Decision-Making [13.928951741632815]
大規模言語モデル(LLM)は、最近、自然言語理解タスクにおいて顕著な進歩を遂げた。
本稿では、新しい説明データセットを導入することにより、このプロセスに透明性をもたらすことを検討する。
我々のデータセットには12,102のQAEトリプルが含まれている。
論文 参考訳(メタデータ) (2023-11-15T00:34:28Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z) - LMExplainer: a Knowledge-Enhanced Explainer for Language Models [23.286843033345658]
GPT-4のような大規模言語モデル(LLM)は非常に強力であり、異なる種類の自然言語処理(NLP)タスクを処理できる。
言語モデル(LM)の動作の明確さと理解の欠如は、現実のシナリオで使用する上で、信頼できない、信頼できない、潜在的に危険なものにします。
本稿では,人間に理解可能な説明を提供する,知識を駆使したLMExplainerを提案する。
論文 参考訳(メタデータ) (2023-03-29T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。