論文の概要: Open (Clinical) LLMs are Sensitive to Instruction Phrasings
- arxiv url: http://arxiv.org/abs/2407.09429v1
- Date: Fri, 12 Jul 2024 17:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 22:39:07.741712
- Title: Open (Clinical) LLMs are Sensitive to Instruction Phrasings
- Title(参考訳): オープン (クリニカル) LLM はインストラクション・プラーシングに敏感である
- Authors: Alberto Mario Ceballos Arroyo, Monica Munnangi, Jiuding Sun, Karen Y. C. Zhang, Denis Jered McInerney, Byron C. Wallace, Silvio Amir,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語命令が与えられた幅広いタスクを実行できるが、そのような命令がどのようにフレーズ化されるかには敏感である。
このことは実際的な疑問を提起する: 臨床NLPタスクで提供される指示の自然変化に対して、命令調整型LLMはどの程度堅牢か?
本研究は,7つのLDMの自然的(非敵的)指示句に対する感受性を定量化するため,様々なタスクを通じて医師からのプロンプトを収集する。
- 参考スコア(独自算出の注目度): 17.522223737737892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction-tuned Large Language Models (LLMs) can perform a wide range of tasks given natural language instructions to do so, but they are sensitive to how such instructions are phrased. This issue is especially concerning in healthcare, as clinicians are unlikely to be experienced prompt engineers and the potential consequences of inaccurate outputs are heightened in this domain. This raises a practical question: How robust are instruction-tuned LLMs to natural variations in the instructions provided for clinical NLP tasks? We collect prompts from medical doctors across a range of tasks and quantify the sensitivity of seven LLMs -- some general, others specialized -- to natural (i.e., non-adversarial) instruction phrasings. We find that performance varies substantially across all models, and that -- perhaps surprisingly -- domain-specific models explicitly trained on clinical data are especially brittle, compared to their general domain counterparts. Further, arbitrary phrasing differences can affect fairness, e.g., valid but distinct instructions for mortality prediction yield a range both in overall performance, and in terms of differences between demographic groups.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)は、自然言語命令に与えられた幅広いタスクを実行できるが、そのような命令がどのようにフレーズ化されるかには敏感である。
この問題は特に医療における問題であり、臨床医が急激なエンジニアを経験することはまずなく、この領域では不正確なアウトプットの可能性が高まっています。
このことは実際的な疑問を提起する: 臨床NLPタスクで提供される指示の自然変化に対して、命令調整型LLMはどの程度堅牢か?
我々は、さまざまなタスクにわたって医師からのプロンプトを収集し、7つのLSM(一般、その他専門)の感度を、自然(非敵)の指示句に定量化する。
パフォーマンスはすべてのモデルで大きく異なり、臨床データで明示的にトレーニングされたドメイン固有のモデルは、一般的なドメインモデルと比較して、特に脆弱です。
さらに、任意の言い回しの違いは、公正性、例えば、死亡予測のための妥当だが異なる指示に影響しうる。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Serial Position Effects of Large Language Models [29.111115148808196]
大規模言語モデル(LLM)は、ゼロショット学習アプリケーションにおいて顕著な能力を示している。
これは、従来の機械学習アプローチから大きく離れている。
これまでの研究では、LSMはプライマリシーやリレーシーバイアスのような連続的な位置効果を示す可能性があることが示されている。
論文 参考訳(メタデータ) (2024-06-23T02:02:52Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Can Large Language Models abstract Medical Coded Language? [0.0]
大規模言語モデル(LLM)は医療コードを認識しており、これらのコードから正確に名前を生成することができる。
本研究は,大規模言語モデル(LLM)が医療コードを認識し,それらのコードから正確に名前を生成することができるかどうかを評価する。
論文 参考訳(メタデータ) (2024-03-16T06:18:15Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - Aligning Large Language Models for Clinical Tasks [0.0]
大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。
我々は「Expand-guess-refine」として知られる医療質問応答のためのアライメント戦略を提案する。
この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。
論文 参考訳(メタデータ) (2023-09-06T10:20:06Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。