論文の概要: A reproducible experimental survey on biomedical sentence similarity: a
string-based method sets the state of the art
- arxiv url: http://arxiv.org/abs/2205.08740v1
- Date: Wed, 18 May 2022 06:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:15:10.151334
- Title: A reproducible experimental survey on biomedical sentence similarity: a
string-based method sets the state of the art
- Title(参考訳): 生体医学的文の類似性に関する再現可能な実験的調査--文字列に基づく方法による研究
- Authors: Alicia Lara-Clares and Juan J. Lastra-D\'iaz and Ana Garcia-Serrano
- Abstract要約: 本報告では,生物医学的文章類似性に関する再現可能な実験結果として,最大かつ初めて紹介する。
本研究の目的は,問題の現状を解明し,現状の手法の評価を未然に防ぐことにある。
実験の結果,前処理段階と NER ツールの選択が文類似性手法の性能に大きく影響していることが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This registered report introduces the largest, and for the first time,
reproducible experimental survey on biomedical sentence similarity with the
following aims: (1) to elucidate the state of the art of the problem; (2) to
solve some reproducibility problems preventing the evaluation of most of
current methods; (3) to evaluate several unexplored sentence similarity
methods; (4) to evaluate an unexplored benchmark, called
Corpus-Transcriptional-Regulation; (5) to carry out a study on the impact of
the pre-processing stages and Named Entity Recognition (NER) tools on the
performance of the sentence similarity methods; and finally, (6) to bridge the
lack of reproducibility resources for methods and experiments in this line of
research. Our experimental survey is based on a single software platform that
is provided with a detailed reproducibility protocol and dataset as
supplementary material to allow the exact replication of all our experiments.
In addition, we introduce a new aggregated string-based sentence similarity
method, called LiBlock, together with eight variants of current ontology-based
methods and a new pre-trained word embedding model trained on the full-text
articles in the PMC-BioC corpus. Our experiments show that our novel
string-based measure sets the new state of the art on the sentence similarity
task in the biomedical domain and significantly outperforms all the methods
evaluated herein, except one ontology-based method. Likewise, our experiments
confirm that the pre-processing stages, and the choice of the NER tool, have a
significant impact on the performance of the sentence similarity methods. We
also detail some drawbacks and limitations of current methods, and warn on the
need of refining the current benchmarks. Finally, a noticeable finding is that
our new string-based method significantly outperforms all state-of-the-art
Machine Learning models evaluated herein.
- Abstract(参考訳): This registered report introduces the largest, and for the first time, reproducible experimental survey on biomedical sentence similarity with the following aims: (1) to elucidate the state of the art of the problem; (2) to solve some reproducibility problems preventing the evaluation of most of current methods; (3) to evaluate several unexplored sentence similarity methods; (4) to evaluate an unexplored benchmark, called Corpus-Transcriptional-Regulation; (5) to carry out a study on the impact of the pre-processing stages and Named Entity Recognition (NER) tools on the performance of the sentence similarity methods; and finally, (6) to bridge the lack of reproducibility resources for methods and experiments in this line of research.
我々の実験は、詳細な再現性プロトコルとデータセットを補足材料として提供し、実験の正確な再現を可能にする単一のソフトウェアプラットフォームに基づいています。
さらに,現在のオントロジに基づく方法の8つの変種と,pmc-biocコーパスのフルテキスト記事に基づいて学習された新しい事前学習単語埋め込みモデルとを併用した,新しい集約文字列に基づく文類似性手法liblockを導入する。
実験の結果,本手法は生物医学領域における文類似性タスクにおいて,本手法の新たな状態を設定し,オントロジー法を除くすべての手法を著しく上回っていることがわかった。
同様に,本実験では,前処理段階と NER ツールの選択が文類似性手法の性能に重大な影響を及ぼすことを確認した。
私たちはまた、現在のメソッドの欠点と制限を詳述し、現在のベンチマークを洗練する必要を警告します。
最後に、我々の新しい文字列ベースの手法は、ここで評価された最先端の機械学習モデル全てを大幅に上回っている。
関連論文リスト
- Leak Proof CMap; a framework for training and evaluation of cell line agnostic L1000 similarity methods [0.0]
Connectivity Map (CMap) は、化学および遺伝的摂動に対する細胞転写反応の大規模な公開データベースである。
我々は'Leak Proof CMap'を開発し、共通の転写学的および一般的な表現型類似性手法の集合への応用を実証した。
3つの重要なパフォーマンス領域(コンパクト性、明瞭性、ユニーク性)におけるベンチマークは、慎重に作成されたデータ分割を用いて行われる。
これにより、新規な患者由来細胞株の新規な作用様式による治療の探索に類似した、目に見えないサンプルを用いたモデルのテストが可能になる。
論文 参考訳(メタデータ) (2024-04-29T04:11:39Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Experimental Analysis of Large-scale Learnable Vector Storage
Compression [42.52474894105165]
学習可能な埋め込みベクトルは、機械学習において最も重要な応用の1つである。
推薦タスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルのメモリ消費を増大させる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
論文 参考訳(メタデータ) (2023-11-27T07:11:47Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Active Learning-Based Multistage Sequential Decision-Making Model with
Application on Common Bile Duct Stone Evaluation [8.296821186083974]
多段階の意思決定シナリオは、医療診断プロセスで一般的に見られる。
本稿では,必要な患者データのみを逐次的に収集する能動的学習法を開発した。
本手法の有効性をシミュレーション研究と実例研究の両方で検証した。
論文 参考訳(メタデータ) (2022-01-13T06:42:12Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Neural sentence embedding models for semantic similarity estimation in
the biomedical domain [6.325814141416726]
PubMed Open Accessデータセットから170万の記事に対して、さまざまなニューラル埋め込みモデルをトレーニングしました。
人手による注釈付き100の文対を含むバイオメディカル・ベンチマークを用いて評価を行った。
論文 参考訳(メタデータ) (2021-10-01T13:27:44Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。