論文の概要: Transformers and the representation of biomedical background knowledge
- arxiv url: http://arxiv.org/abs/2202.02432v1
- Date: Fri, 4 Feb 2022 23:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 13:42:34.401888
- Title: Transformers and the representation of biomedical background knowledge
- Title(参考訳): トランスフォーマーと生体医学的背景知識の表現
- Authors: Oskar Wysocki (1,2), Zili Zhou (1,2), Paul O'Regan (2), Deborah
Ferreira (1), Magdalena Wysocka (2), D\'onal Landers (2), Andr\'e Freitas
(1,2,3) ((1) Department of Computer Science, The University of Manchester,
(2) digital Experimental Cancer Medicine Team, Cancer Biomarker Centre, CRUK
Manchester Institute, University of Manchester, (3) Idiap Research Institute)
- Abstract要約: BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。
これらのモデルにおける生物学的知識の符号化と表現について検討する。
これらのモデルが生物の知識をコード化していることを示すが、そのいくつかは特定のタスクの微調整で失われている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: BioBERT and BioMegatron are Transformers models adapted for the biomedical
domain based on publicly available biomedical corpora. As such, they have the
potential to encode large-scale biological knowledge. We investigate the
encoding and representation of biological knowledge in these models, and its
potential utility to support inference in cancer precision medicine - namely,
the interpretation of the clinical significance of genomic alterations. We
compare the performance of different transformer baselines; we use probing to
determine the consistency of encodings for distinct entities; and we use
clustering methods to compare and contrast the internal properties of the
embeddings for genes, variants, drugs and diseases. We show that these models
do indeed encode biological knowledge, although some of this is lost in
fine-tuning for specific tasks. Finally, we analyse how the models behave with
regard to biases and imbalances in the dataset.
- Abstract(参考訳): BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。
そのため、大規模な生物学的知識をエンコードする可能性がある。
本研究は、これらのモデルにおける生物学的知識の符号化と表現、および癌精密医学における推論支援の潜在的有用性、すなわちゲノム改変の臨床的意義の解釈について検討する。
我々は、異なるトランスフォーマーベースラインのパフォーマンスを比較し、異なるエンティティのエンコーディングの一貫性を決定するためにプローブを使用し、クラスタリング手法を使用して、遺伝子、変異体、薬物、疾患に対する埋め込みの内部特性を比較し、対比する。
これらのモデルは生物学的知識をエンコードしているが、特定のタスクの微調整では失われるものもある。
最後に,データセット内のバイアスや不均衡に関してモデルがどのように振る舞うかを分析する。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Assessing Intra-class Diversity and Quality of Synthetically Generated
Images in a Biomedical and Non-biomedical Setting [0.6308539010172307]
GAN(Generative Adversarial Networks)は、データ拡張タスクにますます依存している。
異なるサンプルサイズを用いて合成画像の多様性と品質を評価する。
その結果,バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・イメージング・モダリティにおいて,多様性と品質のスコアは著しく異なることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:39:18Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - Improving generalization of machine learning-identified biomarkers with
causal modeling: an investigation into immune receptor diagnostics [2.40246230430283]
我々は、最近確立された高次元バイオマーカー-アダプティブ免疫受容体レパートリー(AIRRs)に焦点をあてる。
因果モデリングは,変数間の安定な関係を同定することにより,機械学習に基づくバイオマーカーの堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-04-20T08:15:54Z) - Gene Transformer: Transformers for the Gene Expression-based
Classification of Cancer Subtypes [0.0]
本稿では,多頭部自己認識モジュールによる高次元遺伝子発現の複雑さに対処するエンド・ツー・エンドのディープラーニング手法であるGene Transformerを提案する。
Gene Transformerは、がんのサブタイプを分類するための効率的なアプローチであり、計算生物学におけるディープラーニングモデルの改善は、この領域でもよく反映できることを示している。
論文 参考訳(メタデータ) (2021-08-26T15:02:55Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。