論文の概要: Transformers and the representation of biomedical background knowledge
- arxiv url: http://arxiv.org/abs/2202.02432v1
- Date: Fri, 4 Feb 2022 23:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 13:42:34.401888
- Title: Transformers and the representation of biomedical background knowledge
- Title(参考訳): トランスフォーマーと生体医学的背景知識の表現
- Authors: Oskar Wysocki (1,2), Zili Zhou (1,2), Paul O'Regan (2), Deborah
Ferreira (1), Magdalena Wysocka (2), D\'onal Landers (2), Andr\'e Freitas
(1,2,3) ((1) Department of Computer Science, The University of Manchester,
(2) digital Experimental Cancer Medicine Team, Cancer Biomarker Centre, CRUK
Manchester Institute, University of Manchester, (3) Idiap Research Institute)
- Abstract要約: BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。
これらのモデルにおける生物学的知識の符号化と表現について検討する。
これらのモデルが生物の知識をコード化していることを示すが、そのいくつかは特定のタスクの微調整で失われている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: BioBERT and BioMegatron are Transformers models adapted for the biomedical
domain based on publicly available biomedical corpora. As such, they have the
potential to encode large-scale biological knowledge. We investigate the
encoding and representation of biological knowledge in these models, and its
potential utility to support inference in cancer precision medicine - namely,
the interpretation of the clinical significance of genomic alterations. We
compare the performance of different transformer baselines; we use probing to
determine the consistency of encodings for distinct entities; and we use
clustering methods to compare and contrast the internal properties of the
embeddings for genes, variants, drugs and diseases. We show that these models
do indeed encode biological knowledge, although some of this is lost in
fine-tuning for specific tasks. Finally, we analyse how the models behave with
regard to biases and imbalances in the dataset.
- Abstract(参考訳): BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。
そのため、大規模な生物学的知識をエンコードする可能性がある。
本研究は、これらのモデルにおける生物学的知識の符号化と表現、および癌精密医学における推論支援の潜在的有用性、すなわちゲノム改変の臨床的意義の解釈について検討する。
我々は、異なるトランスフォーマーベースラインのパフォーマンスを比較し、異なるエンティティのエンコーディングの一貫性を決定するためにプローブを使用し、クラスタリング手法を使用して、遺伝子、変異体、薬物、疾患に対する埋め込みの内部特性を比較し、対比する。
これらのモデルは生物学的知識をエンコードしているが、特定のタスクの微調整では失われるものもある。
最後に,データセット内のバイアスや不均衡に関してモデルがどのように振る舞うかを分析する。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Unified Representation of Genomic and Biomedical Concepts through Multi-Task, Multi-Source Contrastive Learning [45.6771125432388]
言語モデル(genEREL)を用いたジェノミクス表現について紹介する。
GENERELは遺伝学と生物医学の知識基盤を橋渡しするために設計されたフレームワークである。
本実験は,SNPと臨床概念のニュアンス関係を効果的に把握するgenERELの能力を実証するものである。
論文 参考訳(メタデータ) (2024-10-14T04:19:52Z) - Domain adaptation in small-scale and heterogeneous biological datasets [0.0]
生物研究におけるドメイン適応のメリットと課題について論じる。
計算生物学者のツールキットにドメイン適応技術を導入することについて論じる。
論文 参考訳(メタデータ) (2024-05-29T16:01:15Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Assessing Intra-class Diversity and Quality of Synthetically Generated
Images in a Biomedical and Non-biomedical Setting [0.6308539010172307]
GAN(Generative Adversarial Networks)は、データ拡張タスクにますます依存している。
異なるサンプルサイズを用いて合成画像の多様性と品質を評価する。
その結果,バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・バイオメディカル・イメージング・モダリティにおいて,多様性と品質のスコアは著しく異なることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:39:18Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - Improving generalization of machine learning-identified biomarkers with
causal modeling: an investigation into immune receptor diagnostics [2.40246230430283]
我々は、最近確立された高次元バイオマーカー-アダプティブ免疫受容体レパートリー(AIRRs)に焦点をあてる。
因果モデリングは,変数間の安定な関係を同定することにより,機械学習に基づくバイオマーカーの堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-04-20T08:15:54Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。