論文の概要: The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from
Chinese Medical Literature
- arxiv url: http://arxiv.org/abs/2309.04198v2
- Date: Tue, 12 Sep 2023 13:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:10:00.911070
- Title: The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from
Chinese Medical Literature
- Title(参考訳): CALLAデータセット:中国医学からLLMの対話的知識獲得を探る
- Authors: Yanrui Du, Sendong Zhao, Muzhen Cai, Jianyu Chen, Haochun Wang, Yuhan
Chen, Haoqiang Guo, Bing Qin
- Abstract要約: 医学領域へのLLM(Large Language Models)の適用は、研究者の関心を刺激している。
近年,医学知識グラフを用いたインストラクションファインチューニング(IFT)データの構築に焦点が当てられている。
我々の研究は、中国医学文献からLLMの対話的知識獲得を探索するCALLAデータセットを導入している。
- 参考スコア(独自算出の注目度): 31.73910836849086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of Large Language Models (LLMs) to the medical domain has
stimulated the interest of researchers. Recent studies have focused on
constructing Instruction Fine-Tuning (IFT) data through medical knowledge
graphs to enrich the interactive medical knowledge of LLMs. However, the
medical literature serving as a rich source of medical knowledge remains
unexplored. Our work introduces the CALLA dataset to probe LLMs' interactive
knowledge acquisition from Chinese medical literature. It assesses the
proficiency of LLMs in mastering medical knowledge through a free-dialogue
fact-checking task. We identify a phenomenon called the ``fact-following
response``, where LLMs tend to affirm facts mentioned in questions and display
a reluctance to challenge them. To eliminate the inaccurate evaluation caused
by this phenomenon, for the golden fact, we artificially construct test data
from two perspectives: one consistent with the fact and one inconsistent with
the fact. Drawing from the probing experiment on the CALLA dataset, we conclude
that IFT data highly correlated with the medical literature corpus serves as a
potent catalyst for LLMs, enabling themselves to skillfully employ the medical
knowledge acquired during the pre-training phase within interactive scenarios,
enhancing accuracy. Furthermore, we design a framework for automatically
constructing IFT data based on medical literature and discuss some real-world
applications.
- Abstract(参考訳): 医学領域への大規模言語モデル(llm)の適用は研究者の関心を刺激している。
近年, LLMのインタラクティブな医療知識を充実させるために, 医用知識グラフを用いたIFTデータの構築に焦点が当てられている。
しかし、医学知識の豊富な情報源としての医学文献は未解明のままである。
我々の研究は、中国医学文献からLLMの対話的知識獲得を探索するCALLAデータセットを導入している。
フリーダイアログのファクトチェックタスクを通じて、医学知識を習得するLLMの能力を評価する。
我々は, LLMが疑問に言及した事実を肯定し, 異議を唱える反感を呈する, ‘fact-following response` と呼ばれる現象を同定する。
この現象による不正確な評価を排除するために、ゴールデン・ファクトのために、私たちは2つの視点から人工的にテストデータを構築します。
カルタデータセットの探索実験から,iftデータを医学文献コーパスと高度に相関させることで,llmの強力な触媒となり,対話型シナリオにおける事前学習段階で得られた医学知識を巧みに活用し,精度を向上させることができると結論づけた。
さらに,医学文献に基づくiftデータの自動構築のためのフレームワークを設計し,実世界の応用について考察する。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Direct-Inverse Prompting: Analyzing LLMs' Discriminative Capacity in Self-Improving Generation [15.184067502284007]
もっとも先進的なLCMでさえ出力の不確実性を経験しており、異なるランニングや入力の微妙な変化に直面した時に、しばしば様々な結果を生み出す。
我々は,直接,逆,ハイブリッドの3つの識別的プロンプトを提案し,分析する。
私たちの洞察は、どの差別的プロンプトが最も有望か、いつ使うかを明らかにします。
論文 参考訳(メタデータ) (2024-06-27T02:26:47Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。