論文の概要: Spanish Biomedical and Clinical Language Embeddings
- arxiv url: http://arxiv.org/abs/2102.12843v1
- Date: Thu, 25 Feb 2021 13:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 16:56:52.228853
- Title: Spanish Biomedical and Clinical Language Embeddings
- Title(参考訳): スペイン語の生体医学および臨床言語埋め込み
- Authors: Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\'e, Casimiro Pio
Carrino, Ona De Gibert, Aitor Gonzalez-Agirre, Marta Villegas
- Abstract要約: FastText を使用して Word と Sub-word Embedding の両方を計算しました。
サブワード埋め込みでは、サブワードを表すByte Pair (BPE)アルゴリズムを選びました。
- 参考スコア(独自算出の注目度): 0.05541644538483946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We computed both Word and Sub-word Embeddings using FastText. For Sub-word
embeddings we selected Byte Pair Encoding (BPE) algorithm to represent the
sub-words. We evaluated the Biomedical Word Embeddings obtaining better results
than previous versions showing the implication that with more data, we obtain
better representations.
- Abstract(参考訳): FastText を使用して Word と Sub-word Embedding の両方を計算しました。
サブワード埋め込みでは、サブワードを表すByte Pair Encoding (BPE)アルゴリズムを選びました。
バイオメディカル・ワード・エンベディングは,従来のバージョンよりも優れた結果が得られ,データ量が増えると表現性が向上することを示した。
関連論文リスト
- An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - TF-IDF vs Word Embeddings for Morbidity Identification in Clinical
Notes: An Initial Study [3.9424051088220518]
臨床記録のテキスト記述において, 深層学習と単語埋め込みを用いて, 16種類の致死型を同定する手法を提案する。
我々は、GloVeとWord2Vecというトレーニング済みのWord Embeddingsと、ターゲットドメインでトレーニングされたWord Embeddingsを採用しました。
論文 参考訳(メタデータ) (2021-05-20T09:57:45Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Hybrid Improved Document-level Embedding (HIDE) [5.33024001730262]
ハイブリット改善文書レベルの埋め込みを提案する。
ドメイン情報、音声情報の一部、感情情報をGloVeやWord2Vecなどの既存の単語埋め込みに組み込む。
本稿では,GloVe や Word2Vec などの既存の事前学習語ベクトルの精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-06-01T19:09:13Z) - Seeing The Whole Patient: Using Multi-Label Medical Text Classification
Techniques to Enhance Predictions of Medical Codes [2.158285012874102]
18,50,155ラベルの多ラベル医療用テキスト分類問題について報告する。
不均衡なデータに対して、頻繁に発生するラベルは、埋め込みに組み込まれた追加機能から最も恩恵を受けることを示す。
この研究の高次元埋め込みは公共用途に利用可能である。
論文 参考訳(メタデータ) (2020-03-29T02:19:30Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。