論文の概要: Literature Triage on Genomic Variation Publications by
Knowledge-enhanced Multi-channel CNN
- arxiv url: http://arxiv.org/abs/2005.04044v1
- Date: Fri, 8 May 2020 13:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:33:26.694136
- Title: Literature Triage on Genomic Variation Publications by
Knowledge-enhanced Multi-channel CNN
- Title(参考訳): 知識強化型マルチチャネルCNNによるゲノム変異出版に関する文献トライアル
- Authors: Chenhui Lv and Qian Lu and Xiang Zhang
- Abstract要約: 本研究の目的は,ゲノム変異と特定の疾患や表現型との関連性を検討することである。
我々は多チャンネル畳み込みネットワークを採用し、リッチテキスト情報を活用し、異なるコーパスからのセマンティックギャップをブリッジする。
本モデルは,バイオメディカル文献トリアージ結果の精度を向上させる。
- 参考スコア(独自算出の注目度): 5.187865216685969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: To investigate the correlation between genomic variation and
certain diseases or phenotypes, the fundamental task is to screen out the
concerning publications from massive literature, which is called literature
triage. Some knowledge bases, including UniProtKB/Swiss-Prot and NHGRI-EBI GWAS
Catalog are created for collecting concerning publications. These publications
are manually curated by experts, which is time-consuming. Moreover, the manual
curation of information from literature is not scalable due to the rapidly
increasing amount of publications. In order to cut down the cost of literature
triage, machine-learning models were adopted to automatically identify
biomedical publications. Methods: Comparing to previous studies utilizing
machine-learning models for literature triage, we adopt a multi-channel
convolutional network to utilize rich textual information and meanwhile bridge
the semantic gaps from different corpora. In addition, knowledge embeddings
learned from UMLS is also used to provide extra medical knowledge beyond
textual features in the process of triage. Results: We demonstrate that our
model outperforms the state-of-the-art models over 5 datasets with the help of
knowledge embedding and multiple channels. Our model improves the accuracy of
biomedical literature triage results. Conclusions: Multiple channels and
knowledge embeddings enhance the performance of the CNN model in the task of
biomedical literature triage. Keywords: Literature Triage; Knowledge Embedding;
Multi-channel Convolutional Network
- Abstract(参考訳): 背景: ゲノム変異と特定の疾患や表現型との相関性を検討するために, 文献トリアージと呼ばれる膨大な文献の出版物について概説することが基本課題である。
UniProtKB/Swiss-ProtやNHGRI-EBI GWAS Catalogなどの知識基盤は、出版物に関する収集のために作成されている。
これらの出版物は専門家によって手作業でキュレーションされ、時間を要する。
また、出版物の増加に伴い、文献からの情報の手作業によるキュレーションはスケーラブルではない。
文献トリアージのコスト削減のために、バイオメディカル出版物を自動的に識別する機械学習モデルが採用された。
方法: 文献トリアージのための機械学習モデルを用いた過去の研究と比較して, リッチテキスト情報を活用するために多チャンネル畳み込みネットワークを採用し, 異なるコーパスからのセマンティックギャップを橋渡しする。
加えて、UMLSから学んだ知識の埋め込みは、トリアージの過程でテキスト機能を超えた追加の医療知識を提供するためにも使われる。
結果:我々のモデルは,知識埋め込みと複数のチャネルの助けを借りて,5つのデータセット以上の最先端モデルを上回ることを実証した。
本モデルは,バイオメディカル文献トリアージ結果の精度を向上させる。
結論: バイオメディカル文献トリアージ作業において, 複数のチャネルと知識埋め込みがCNNモデルの性能を向上させる。
キーワード:文学トリアージ、知識埋め込み、マルチチャネル畳み込みネットワーク
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Improving Biomedical Abstractive Summarisation with Knowledge
Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。
本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。
我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T09:56:46Z) - Data-Driven Information Extraction and Enrichment of Molecular Profiling
Data for Cancer Cell Lines [1.1999555634662633]
本研究では,新しいデータ抽出・探索システムの設計,実装,応用について述べる。
我々は、ゲノムコピー番号の変種プロットと、ランク付けされた関連エンティティの自動リンクを可能にする、新しい公開データ探索ポータルを導入する。
私たちのシステムは、https://cancercelllines.org.comで公開されています。
論文 参考訳(メタデータ) (2023-07-03T11:15:42Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - COVID-19 Literature Knowledge Graph Construction and Drug Repurposing
Report Generation [79.33545724934714]
我々は,学術文献から微細なマルチメディア知識要素を抽出する,新しい包括的知識発見フレームワークであるCOVID-KGを開発した。
我々のフレームワークはまた、証拠として詳細な文脈文、サブフィギュア、知識のサブグラフも提供します。
論文 参考訳(メタデータ) (2020-07-01T16:03:20Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。