論文の概要: Semi-Automating Knowledge Base Construction for Cancer Genetics
- arxiv url: http://arxiv.org/abs/2005.08146v2
- Date: Tue, 26 May 2020 00:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:42:52.729473
- Title: Semi-Automating Knowledge Base Construction for Cancer Genetics
- Title(参考訳): がん遺伝学のための半自動知識ベース構築
- Authors: Somin Wadhwa, Kanhua Yin, Kevin S. Hughes, Byron C. Wallace
- Abstract要約: 本稿では,全文がん遺伝子記事からキー要素を自動的に抽出するモデルを提案する。
手作業による知識ベースを用いた全文記事のトークンやスニペットの遠隔監視を行う。
- 参考スコア(独自算出の注目度): 20.74608114488094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the exponentially growing subarea of genetics in
cancer. The need to synthesize and centralize this evidence for dissemination
has motivated a team of physicians to manually construct and maintain a
knowledge base that distills key results reported in the literature. This is a
laborious process that entails reading through full-text articles to understand
the study design, assess study quality, and extract the reported cancer risk
estimates associated with particular hereditary cancer genes (i.e.,
penetrance). In this work, we propose models to automatically surface key
elements from full-text cancer genetics articles, with the ultimate aim of
expediting the manual workflow currently in place.
We propose two challenging tasks that are critical for characterizing the
findings reported cancer genetics studies: (i) Extracting snippets of text that
describe \emph{ascertainment mechanisms}, which in turn inform whether the
population studied may introduce bias owing to deviations from the target
population; (ii) Extracting reported risk estimates (e.g., odds or hazard
ratios) associated with specific germline mutations. The latter task may be
viewed as a joint entity tagging and relation extraction problem. To train
models for these tasks, we induce distant supervision over tokens and snippets
in full-text articles using the manually constructed knowledge base. We propose
and evaluate several model variants, including a transformer-based joint entity
and relation extraction model to extract <germline mutation, risk-estimate>}
pairs. We observe strong empirical performance, highlighting the practical
potential for such models to aid KB construction in this space. We ablate
components of our model, observing, e.g., that a joint model for <germline
mutation, risk-estimate> fares substantially better than a pipelined approach.
- Abstract(参考訳): 本研究では,癌における遺伝子領域の指数関数的に増加する領域について考察する。
普及のためにこの証拠を合成し集中させる必要性は、医師のチームが、文献で報告された重要な結果を蒸留する知識ベースを手作業で構築し、維持する動機となった。
これは、研究設計を理解し、研究品質を評価し、特定の遺伝性癌遺伝子(すなわち、透過性)に関連する報告されたがんリスク推定を抽出するために、フルテキストの論文を読み取るのに苦労したプロセスである。
本研究は,現在行われている手動ワークフローの迅速化を目的として,全文がん遺伝子記事からキー要素を自動的に抽出するモデルを提案する。
発癌遺伝学研究の結果を特徴付けるために重要な課題を2つ提案する。
一 研究対象の集団からの偏見による偏見をもたらす可能性があることを通知する「emph{ascertainment mechanism}」を記載したテキストの断片を抽出すること。
(ii)特定の生殖細胞突然変異に関連する報告されたリスク推定(オッズまたはハザード比)を抽出すること。
後者のタスクは、結合エンティティタグ付けと関係抽出の問題と見なすことができる。
これらのタスクのモデルをトレーニングするために,手作業による知識ベースを用いた全文記事のトークンやスニペットの遠隔監視を行う。
そこで本研究では,トランスフォーマーを用いたジョイントエンティティと関係抽出モデルを用いて<germline mutation, risk-estimate>}ペアを抽出するモデルを提案する。
我々は、この領域におけるkb構成を支援するモデルの実践可能性を強調しながら、強い経験的性能を観察した。
例えば、<germline mutation, risk-estimate>のジョイントモデルがパイプライン化されたアプローチよりも大幅に優れていることを観察します。
関連論文リスト
- Automatic Extraction of Disease Risk Factors from Medical Publications [1.321009936753118]
医学文献から疾患の危険因子の同定を自動化するための新しいアプローチを提案する。
まず、リスクファクターの議論の有無に基づいて関連記事を特定し、最後に、特定のリスクファクター情報を抽出する。
私たちのコントリビューションには、リスクファクタの自動抽出と、いくつかのデータセットのコンパイルのための包括的なパイプラインの開発が含まれています。
論文 参考訳(メタデータ) (2024-07-10T05:17:55Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation [11.266364967223556]
放射線医学報告生成(RRG)は、生体医学分野の視覚・言語相互作用として注目されている。
従来の言語生成タスクのイデオロギーは、レポートとして高い可読性を持つ段落を生成することを目的として、従来の言語生成タスクのイデオロギーを継承した。
RRGの特定の性質である病気間の独立性は無視され、偏りのあるデータ分布によって引き起こされる病気の共起によってモデルが混乱する結果となった。
論文 参考訳(メタデータ) (2023-11-22T10:55:36Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature [0.0]
本稿では,ジェムリン遺伝子と疾患を結合する知識グラフ構築手法SimpleGermKGを提案する。
遺伝子および疾患の抽出には、バイオメディカルコーパス上でトレーニング済みのBERTモデルであるBioBERTを用いる。
記事,遺伝子,疾患間の意味的関連性について,部分的関係性アプローチを実装した。
知識グラフには297の遺伝子、130の疾患、46,747のトリプルが含まれている。
論文 参考訳(メタデータ) (2023-09-11T18:05:12Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Comparative Performance Evaluation of Large Language Models for
Extracting Molecular Interactions and Pathway Knowledge [6.244840529371179]
タンパク質の相互作用と経路の知識を理解することは、生きたシステムの複雑さを解き明かすのに不可欠です。
既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供しているが、そのメンテナンスは労働集約的である。
本稿では,これらの問題に対処する大規模言語モデルの能力を活用し,関連する科学文献からそのような知識を自動的に抽出することを提案する。
論文 参考訳(メタデータ) (2023-07-17T20:01:11Z) - EPICURE Ensemble Pretrained Models for Extracting Cancer Mutations from
Literature [12.620782629498814]
EPICUREは、条件付きランダムフィールドパターン層とスパン予測パターン層を備え、テキストからがんの突然変異を抽出するアンサンブル事前訓練モデルである。
3つのベンチマークデータセットの実験結果から,ベースラインモデルと比較して競争力のある結果が得られた。
論文 参考訳(メタデータ) (2021-06-11T09:08:15Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。