論文の概要: Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4
- arxiv url: http://arxiv.org/abs/2404.00484v1
- Date: Sat, 30 Mar 2024 22:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:30:20.098823
- Title: Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4
- Title(参考訳): Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-Tune your model without you have access to GPT-4
- Authors: Aryo Pradipta Gema, Giwon Hong, Pasquale Minervini, Luke Daines, Beatrice Alex,
- Abstract要約: 各種大規模言語モデル (LLM) を複数戦略で評価する。例えば、Chain-of-Thought, In-Context Learning, Efficient Fine-Tuning (PEFT) などである。
その結果,2つのPEFTアダプタはF1スコア(+0.0346)とLLMの一貫性(+0.152)を改善した。
3つの指標を平均して、GPT-4は0.8328との競争で1位となった。
- 参考スコア(独自算出の注目度): 10.01547158445743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLI4CT task assesses Natural Language Inference systems in predicting whether hypotheses entail or contradict evidence from Clinical Trial Reports. In this study, we evaluate various Large Language Models (LLMs) with multiple strategies, including Chain-of-Thought, In-Context Learning, and Parameter-Efficient Fine-Tuning (PEFT). We propose a PEFT method to improve the consistency of LLMs by merging adapters that were fine-tuned separately using triplet and language modelling objectives. We found that merging the two PEFT adapters improves the F1 score (+0.0346) and consistency (+0.152) of the LLMs. However, our novel methods did not produce more accurate results than GPT-4 in terms of faithfulness and consistency. Averaging the three metrics, GPT-4 ranks joint-first in the competition with 0.8328. Finally, our contamination analysis with GPT-4 indicates that there was no test data leakage.
- Abstract(参考訳): NLI4CTタスクは、仮説が臨床試験報告の証拠に関係しているか矛盾するかを予測するために、自然言語推論システムを評価する。
本研究では,チェイン・オブ・ソート,イン・コンテクスト・ラーニング,パラメータ・エフェクト・ファイン・チューニング (PEFT) など,様々な戦略を用いた大規模言語モデル (LLM) の評価を行った。
本稿では,三重項と言語モデリングの目的を別々に調整したアダプタをマージすることで,LLMの整合性を改善するPEFT法を提案する。
2つのPEFTアダプタをマージすることで、LLMのF1スコア(+0.0346)と一貫性(+0.152)が向上することがわかった。
しかし,本手法では,信頼度と一貫性の点で,GPT-4よりも正確な結果が得られなかった。
3つの指標を平均して、GPT-4は0.8328との競争で1位となった。
最後に, GPT-4による汚染分析の結果, 試験データ漏洩は認められなかった。
関連論文リスト
- MedSlice: Fine-Tuned Large Language Models for Secure Clinical Note Sectioning [2.4060718165478376]
微調整のオープンソース LLM は、臨床ノートのセクションリングにおいて独自のモデルを上回ることができる。
本研究は,現在病歴,インターバル歴史,アセスメント・アンド・プランの3つのセクションに焦点をあてる。
論文 参考訳(メタデータ) (2025-01-23T21:32:09Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - CACER: Clinical Concept Annotations for Cancer Events and Relations [22.866006682711284]
本研究は,48,000件以上の医学的問題と薬物イベントに対する微粒な注釈付き新規コーパスCACERについて紹介する。
微調整および文脈内学習を用いたトランスフォーマーに基づく情報抽出モデルの開発と評価を行う。
論文 参考訳(メタデータ) (2024-09-05T20:42:35Z) - Relation Extraction Using Large Language Models: A Case Study on Acupuncture Point Locations [12.632106431145047]
GPT (Generative Pre-trained Transformers) は、キューポイント位置に関連する関係を抽出する重要な機会を提供する。
本研究では,GPTと従来の深層学習モデル(LSTM)とバイオメディカルテキストマイニング用トランスフォーマー(BioBERT)の双方向表現を比較した。
微調整のGPT-3.5は、全ての関係型でF1スコアの他のモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-08T11:33:00Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering [20.534197056683695]
本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
論文 参考訳(メタデータ) (2023-03-29T02:46:18Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。