論文の概要: Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings
- arxiv url: http://arxiv.org/abs/2406.00984v3
- Date: Sun, 08 Dec 2024 09:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:48.610602
- Title: Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings
- Title(参考訳): 単語埋め込みを用いたアナロジー課題による薬物・遺伝子関係の予測
- Authors: Hiroaki Yamagiwa, Ryoma Hashimoto, Kiwamu Arakane, Ken Murakami, Shou Soeda, Momose Oyama, Yihua Zhu, Mariko Okada, Hidetoshi Shimodaira,
- Abstract要約: そこで本研究では,BioConceptVecの埋め込みには薬物遺伝子関係に関する情報が含まれており,類似の計算によって薬剤の標的遺伝子を予測することができることを示す。
提案手法はGPT-4のような大規模言語モデルに匹敵する薬物遺伝子関係の予測性能を示した。
- 参考スコア(独自算出の注目度): 3.4437537926107664
- License:
- Abstract: Natural language processing (NLP) is utilized in a wide range of fields, where words in text are typically transformed into feature vectors called embeddings. BioConceptVec is a specific example of embeddings tailored for biology, trained on approximately 30 million PubMed abstracts using models such as skip-gram. Generally, word embeddings are known to solve analogy tasks through simple vector arithmetic. For instance, $\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$. In this study, we demonstrate that BioConceptVec embeddings, along with our own embeddings trained on PubMed abstracts, contain information about drug-gene relations and can predict target genes from a given drug through analogy computations. We also show that categorizing drugs and genes using biological pathways improves performance. Furthermore, we illustrate that vectors derived from known relations in the past can predict unknown future relations in datasets divided by year. Despite the simplicity of implementing analogy tasks as vector additions, our approach demonstrated performance comparable to that of large language models such as GPT-4 in predicting drug-gene relations.
- Abstract(参考訳): 自然言語処理(NLP)は、テキスト中の単語が通常、埋め込みと呼ばれる特徴ベクトルに変換される幅広い分野で利用される。
BioConceptVecは生物学に適した埋め込みの具体例であり、スキップグラムのようなモデルを使用して約3000万のPubMed抽象化に基づいてトレーニングされている。
一般に、単語埋め込みは単純な算術演算によって類似タスクを解くことが知られている。
例えば、$\mathrm{\textit{king}} - \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$である。
本研究では,BioConceptVec の埋め込みと,PubMed の抽象化で訓練した埋め込みが,薬物遺伝子関係の情報を包含し,アナログ計算により薬剤の標的遺伝子を予測できることを実証した。
また, 生物学的経路を用いた薬物や遺伝子を分類することで, 性能が向上することを示した。
さらに,過去の既知の関係から派生したベクトルが,データセットの未知の将来の関係を年々予測できることを示す。
本手法は, 類似タスクをベクトル付加として実装することの単純さにもかかわらず, GPT-4のような大規模言語モデルに匹敵する性能を示し, 薬物遺伝子関係の予測を行った。
関連論文リスト
- Graph-Dictionary Signal Model for Sparse Representations of Multivariate Data [49.77103348208835]
グラフの有限集合がラプラシアンの重み付き和を通してデータ分布の関係を特徴付けるグラフ辞書信号モデルを定義する。
本稿では,観測データからグラフ辞書表現を推論するフレームワークを提案する。
我々は,脳活動データに基づく運動画像復号作業におけるグラフ辞書表現を利用して,従来の手法よりも想像的な動きをよりよく分類する。
論文 参考訳(メタデータ) (2024-11-08T17:40:43Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - What learning algorithm is in-context learning? Investigations with
linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。
訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。
文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文 参考訳(メタデータ) (2022-11-28T18:59:51Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Communicative Subgraph Representation Learning for Multi-Relational
Inductive Drug-Gene Interaction Prediction [17.478102754113294]
マルチリレーショナル・インダクティブ・ドラッグ-遺伝子相互作用予測(CoSMIG)のための新しいコミュニケーティブ・サブグラフ表現学習法を提案する。
このモデルは、通信メッセージパッシング機構を通じて、薬物遺伝子グラフの関係を強化した。
提案手法は,トランスダクティブシナリオにおいて最先端のベースラインより優れ,インダクティブシナリオでは優れた性能を実現した。
論文 参考訳(メタデータ) (2022-05-12T08:53:45Z) - Graph-in-Graph (GiG): Learning interpretable latent graphs in
non-Euclidean domain for biological and healthcare applications [52.65389473899139]
グラフは、医療領域において、非ユークリッドな非ユークリッドデータをユビキタスに表現し、分析するための強力なツールである。
近年の研究では、入力データサンプル間の関係を考慮すると、下流タスクに正の正の正則化効果があることが示されている。
タンパク質分類と脳イメージングのためのニューラルネットワークアーキテクチャであるGraph-in-Graph(GiG)を提案する。
論文 参考訳(メタデータ) (2022-04-01T10:01:37Z) - Distilling Relation Embeddings from Pre-trained Language Models [35.718167335989854]
事前学習した言語モデルから関係埋め込みを蒸留することが可能であることを示す。
我々は、(手動または自動生成)プロンプトを使って単語ペアを符号化し、言語モデルを微調整する。
結果として得られる関係埋め込みは、アナログ(教師なし)と関係分類(教師なし)のベンチマークで非常に競合する。
論文 参考訳(メタデータ) (2021-09-21T15:05:27Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - Learning Informative Representations of Biomedical Relations with Latent
Variable Models [2.4366811507669115]
本稿では,任意に柔軟な分布を持つ潜在変数モデルを提案する。
我々のモデルは、パラメータが少なく、トレーニングがかなり速く、両方のタスクの強いベースラインと競合する結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-11-20T08:56:31Z) - Evaluating Sparse Interpretable Word Embeddings for Biomedical Domain [1.3526604206343171]
解釈可能性(英: Interpretability)は、生体医学的応用において不可欠な部分である正当化の鍵となる手段である。
医療領域における単語埋め込みの解釈可能性に関する包括的研究を行い,スパース法の役割に着目した。
実験結果から, 下流タスクにおける元のベクトルの性能を保ちながら, 疎単語ベクトルの方がはるかに解釈可能性が高いことがわかった。
論文 参考訳(メタデータ) (2020-05-11T13:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。