論文の概要: Enriching Biomedical Knowledge for Low-resource Language Through
Translation
- arxiv url: http://arxiv.org/abs/2210.05598v1
- Date: Tue, 11 Oct 2022 16:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:01:48.625962
- Title: Enriching Biomedical Knowledge for Low-resource Language Through
Translation
- Title(参考訳): 翻訳による低リソース言語のためのバイオメディカル知識の充実
- Authors: Long Phan, Tai Dang, Hieu Tran, Vy Phan, Lam D. Chau, and Trieu H.
Trinh
- Abstract要約: 我々は、英語・ベトナム語における最先端翻訳モデルを用いて、事前訓練されたデータとバイオメディカル領域における教師付きデータの両方を翻訳し、生成する。
このような大規模な翻訳のおかげで、高品質な公開コーパスから2000万の抽象化に基づいてトレーニングされた、事前訓練されたデコーダ変換モデルであるViPubmedT5を導入する。
- 参考スコア(独自算出の注目度): 1.6347851388527643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical data and benchmarks are highly valuable yet very limited in
low-resource languages other than English such as Vietnamese. In this paper, we
make use of a state-of-the-art translation model in English-Vietnamese to
translate and produce both pretrained as well as supervised data in the
biomedical domains. Thanks to such large-scale translation, we introduce
ViPubmedT5, a pretrained Encoder-Decoder Transformer model trained on 20
million translated abstracts from the high-quality public PubMed corpus.
ViPubMedT5 demonstrates state-of-the-art results on two different biomedical
benchmarks in summarization and acronym disambiguation. Further, we release
ViMedNLI - a new NLP task in Vietnamese translated from MedNLI using the
recently public En-vi translation model and carefully refined by human experts,
with evaluations of existing methods against ViPubmedT5.
- Abstract(参考訳): バイオメディカルデータとベンチマークは、ベトナム語などの英語以外の低リソース言語では極めて価値が高いが、非常に限られている。
本稿では,英語-ベトナム語における最先端翻訳モデルを用いて,前訓練されたデータと,生物医学領域における教師付きデータの両方を翻訳・生成する。
このような大規模な翻訳により、高品質なPubMedコーパスから2000万の翻訳抽象化をトレーニングした、事前訓練されたEncoder-Decoder TransformerモデルであるViPubmedT5を導入する。
ViPubMedT5は、要約と頭文字の曖昧さの2つの異なるバイオメディカルベンチマークで最先端の結果を示す。
さらに,最近公開されたen-vi翻訳モデルを用いてベトナム語から翻訳された新しいnlpタスクであるvimednliをリリースし,既存の手法によるvipubmedt5に対する評価を行った。
関連論文リスト
- Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。
包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-04-11T10:01:32Z) - Improving Vietnamese-English Medical Machine Translation [14.172448099399407]
MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-28T06:07:15Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - MTet: Multi-domain Translation for English and Vietnamese [10.126442202316825]
MTetは英語とベトナム語を翻訳するための最大の並列コーパスである。
英語とベトナム語のための最初の事前訓練されたモデルEnViT5をリリースする。
論文 参考訳(メタデータ) (2022-10-11T16:55:21Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Conceptualized Representation Learning for Chinese Biomedical Text
Mining [14.77516568767045]
本稿では,最近導入された言語モデルBERTが,中国のバイオメディカルコーパスにどのように適応できるかを検討する。
漢文では、その複雑な構造と多種多様な句の組み合わせにより、より困難である。
論文 参考訳(メタデータ) (2020-08-25T04:41:35Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。