論文の概要: Igea: a Decoder-Only Language Model for Biomedical Text Generation in Italian
- arxiv url: http://arxiv.org/abs/2407.06011v1
- Date: Mon, 8 Jul 2024 15:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:20:49.202228
- Title: Igea: a Decoder-Only Language Model for Biomedical Text Generation in Italian
- Title(参考訳): Igea: イタリアにおけるバイオメディカルテキスト生成のためのデコーダ専用言語モデル
- Authors: Tommaso Mario Buonocore, Simone Rancati, Enea Parimbelli,
- Abstract要約: 本稿では,イタリアにおけるバイオメディカルテキスト生成のために明示的に設計された,最初のデコーダのみの言語モデルであるIgeaを紹介する。
Igeaには3つのモデルサイズ – 350万,10億,30億のパラメータがある。
我々は、ドメイン内バイオメディカルコーパスと汎用ベンチマークを併用したIgeaの評価を行い、ドメイン固有トレーニング後の一般知識の維持と有効性を強調した。
- 参考スコア(独自算出の注目度): 0.1474723404975345
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The development of domain-specific language models has significantly advanced natural language processing applications in various specialized fields, particularly in biomedicine. However, the focus has largely been on English-language models, leaving a gap for less-resourced languages such as Italian. This paper introduces Igea, the first decoder-only language model designed explicitly for biomedical text generation in Italian. Built on the Minerva model and continually pretrained on a diverse corpus of Italian medical texts, Igea is available in three model sizes: 350 million, 1 billion, and 3 billion parameters. The models aim to balance computational efficiency and performance, addressing the challenges of managing the peculiarities of medical terminology in Italian. We evaluate Igea using a mix of in-domain biomedical corpora and general-purpose benchmarks, highlighting its efficacy and retention of general knowledge even after the domain-specific training. This paper discusses the model's development and evaluation, providing a foundation for future advancements in Italian biomedical NLP.
- Abstract(参考訳): ドメイン固有言語モデルの開発は、様々な専門分野、特にバイオメディシンにおいて、かなり高度な自然言語処理の応用をもたらしている。
しかし、主に英語モデルに焦点が当てられており、イタリア語のような低リソースの言語にはギャップが残されている。
本稿では,イタリアにおけるバイオメディカルテキスト生成のために明示的に設計された,最初のデコーダのみの言語モデルであるIgeaを紹介する。
Minervaモデルに基づいて構築され、さまざまなイタリアの医療用テキストのコーパスで継続的に事前訓練されているIgeaは、3億5000万、10億、30億のパラメーターの3つのモデルサイズで利用できる。
このモデルは計算効率と性能のバランスを図り、イタリア語における医学用語の特異性を管理するという課題に対処することを目的としている。
我々は、ドメイン内バイオメディカルコーパスと汎用ベンチマークを併用したIgeaの評価を行い、ドメイン固有トレーニング後の一般知識の維持と有効性を強調した。
本稿では,イタリアのバイオメディカルNLPの今後の発展のための基盤となるモデルの開発と評価について論じる。
関連論文リスト
- Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings [10.39989311209284]
医療領域における言語モデルに関する包括的調査を行う。
私たちのサブセットは53モデルで、1億1000万から13億のパラメータに対応しています。
この結果から,様々なタスクやデータセットにまたがる顕著なパフォーマンスが明らかになった。
論文 参考訳(メタデータ) (2024-06-24T12:52:02Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Localising In-Domain Adaptation of Transformer-Based Biomedical Language
Models [0.987336898133886]
我々は、英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチを提案する。
1つは、英語リソースのニューラルネットワーク翻訳に基づくもので、品質よりも量を好む。
もう一つは、イタリア語で書かれた高品位で細いスコープのコーパスに基づいており、量よりも質を優先している。
論文 参考訳(メタデータ) (2022-12-20T16:59:56Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - CBAG: Conditional Biomedical Abstract Generation [1.2633386045916442]
浅層エンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深層"言語モデル"スタックを備えたトランスフォーマーベースの条件言語モデルを提案する。
提案したタイトル,意図した出版年,キーワードのセットのみをバイオメディカルな要約として生成する。
論文 参考訳(メタデータ) (2020-02-13T17:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。