論文の概要: Elsevier Arena: Human Evaluation of Chemistry/Biology/Health Foundational Large Language Models
- arxiv url: http://arxiv.org/abs/2409.05486v1
- Date: Mon, 9 Sep 2024 10:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:00:05.365200
- Title: Elsevier Arena: Human Evaluation of Chemistry/Biology/Health Foundational Large Language Models
- Title(参考訳): Elsevier Arena: 化学・生物学・健康基礎言語モデルの人間による評価
- Authors: Camilo Thorne, Christian Druckenbrodt, Kinga Szarkowska, Deepika Goyal, Pranita Marajan, Vijay Somanath, Corey Harper, Mao Yan, Tony Scerri,
- Abstract要約: エルゼビアで行われた生物医学領域(健康・生物学・化学・薬学)に焦点を当てた人体評価実験について述べる。
比較的小さな (135B トークン) データセットでトレーニングされたデコーダのみの基礎変換器は OpenAI の GPT-3.5-turbo と Meta の基本 7B パラメータ Llama 2 モデルと比較される。
結果は、一般的にIRRスコアが低かったとしても、GPT-3.5-turboが好まれており、会話能力を持つモデルが好まれており、非常に大きなデータセットでトレーニングされていることを示している。
- 参考スコア(独自算出の注目度): 0.038696580294804606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The quality and capabilities of large language models cannot be currently fully assessed with automated, benchmark evaluations. Instead, human evaluations that expand on traditional qualitative techniques from natural language generation literature are required. One recent best-practice consists in using A/B-testing frameworks, which capture preferences of human evaluators for specific models. In this paper we describe a human evaluation experiment focused on the biomedical domain (health, biology, chemistry/pharmacology) carried out at Elsevier. In it a large but not massive (8.8B parameter) decoder-only foundational transformer trained on a relatively small (135B tokens) but highly curated collection of Elsevier datasets is compared to OpenAI's GPT-3.5-turbo and Meta's foundational 7B parameter Llama 2 model against multiple criteria. Results indicate -- even if IRR scores were generally low -- a preference towards GPT-3.5-turbo, and hence towards models that possess conversational abilities, are very large and were trained on very large datasets. But at the same time, indicate that for less massive models training on smaller but well-curated training sets can potentially give rise to viable alternatives in the biomedical domain.
- Abstract(参考訳): 大規模な言語モデルの品質と能力は、現在、自動ベンチマーク評価で完全に評価することはできない。
代わりに、従来の定性的な手法を自然言語生成文学から拡張する人間の評価が必要である。
最近のベストプラクティスの1つは、特定のモデルに対する人間の評価者の好みをキャプチャするA/Bテストフレームワークの使用である。
本稿では,エルゼビアで行われた生物医学領域(健康,生物学,化学・薬学)に焦点を当てたヒト評価実験について述べる。
大規模な (8.8B パラメータ) デコーダのみの基底変換器は比較的小さな (135B トークン) で訓練されているが、高度にキュレートされたエルゼビアデータセットのコレクションは OpenAI の GPT-3.5-turbo と Meta の基本 7B パラメータ Llama 2 モデルと比較される。
結果は、一般的にIRRスコアが低かったとしても、GPT-3.5-turboが好まれており、会話能力を持つモデルが好まれており、非常に大きなデータセットでトレーニングされていることを示している。
しかし同時に、より小さいが十分に訓練されたトレーニングセットでの訓練の少ないモデルでは、バイオメディカル領域で実行可能な代替手段が生まれる可能性があることを示唆している。
関連論文リスト
- Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - DAEDRA: A language model for predicting outcomes in passive
pharmacovigilance reporting [0.0]
DAEDRAは、有害事象報告における規制関連結果を検出するために設計された大きな言語モデルである。
本稿では,DAEDRAの概念,設計,訓練,評価について述べる。
論文 参考訳(メタデータ) (2024-02-10T16:48:45Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain [5.479164650793012]
本稿では,GPT-3とBioBERTの2つの強力なトランスフォーマー言語モデルの性能について,生物医学的NLPタスクにおける数ショット設定で検討する。
GPT-3は、オープンドメインのNLPタスクにおける数発の知識伝達において、最先端の成果をすでに達成していたが、BioBERTほど効果的に実行できなかった。
論文 参考訳(メタデータ) (2021-09-06T15:50:37Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。