論文の概要: Neural sentence embedding models for semantic similarity estimation in
the biomedical domain
- arxiv url: http://arxiv.org/abs/2110.15708v1
- Date: Fri, 1 Oct 2021 13:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 17:16:49.186570
- Title: Neural sentence embedding models for semantic similarity estimation in
the biomedical domain
- Title(参考訳): バイオメディカル領域における意味的類似性推定のためのニューラル文埋め込みモデル
- Authors: Kathrin Blagec, Hong Xu, Asan Agibetov, Matthias Samwald
- Abstract要約: PubMed Open Accessデータセットから170万の記事に対して、さまざまなニューラル埋め込みモデルをトレーニングしました。
人手による注釈付き100の文対を含むバイオメディカル・ベンチマークを用いて評価を行った。
- 参考スコア(独自算出の注目度): 6.325814141416726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BACKGROUND: In this study, we investigated the efficacy of current
state-of-the-art neural sentence embedding models for semantic similarity
estimation of sentences from biomedical literature. We trained different neural
embedding models on 1.7 million articles from the PubMed Open Access dataset,
and evaluated them based on a biomedical benchmark set containing 100 sentence
pairs annotated by human experts and a smaller contradiction subset derived
from the original benchmark set.
RESULTS: With a Pearson correlation of 0.819, our best unsupervised model
based on the Paragraph Vector Distributed Memory algorithm outperforms previous
state-of-the-art results achieved on the BIOSSES biomedical benchmark set.
Moreover, our proposed supervised model that combines different string-based
similarity metrics with a neural embedding model surpasses previous
ontology-dependent supervised state-of-the-art approaches in terms of Pearson's
r (r=0.871) on the biomedical benchmark set. In contrast to the promising
results for the original benchmark, we found our best models' performance on
the smaller contradiction subset to be poor.
CONCLUSIONS: In this study we highlighted the value of neural network-based
models for semantic similarity estimation in the biomedical domain by showing
that they can keep up with and even surpass previous state-of-the-art
approaches for semantic similarity estimation that depend on the availability
of laboriously curated ontologies when evaluated on a biomedical benchmark set.
Capturing contradictions and negations in biomedical sentences, however,
emerged as an essential area for further work.
- Abstract(参考訳): BACKGROUND: 本研究は, 生物医学文献からの文の意味的類似性推定のための, 最先端のニューラル文埋め込みモデルの有効性を検討した。
PubMed Open Accessデータセットから170万記事の異なるニューラルネットワーク埋め込みモデルをトレーニングし、人間の専門家が注釈付けした100の文対と、元のベンチマークセットから派生した小さな矛盾部分からなるバイオメディカルベンチマークセットに基づいて評価した。
結果: pearson相関は0.819であり, パラグラフベクトル分散メモリアルゴリズムに基づく最善の教師なしモデルは, biossのバイオメディカルベンチマークで得られた先行研究結果よりも優れていた。
さらに,Pearson's r (r=0.871) on the biomedical benchmark setにおいて,異なる文字列ベース類似度指標とニューラル埋め込みモデルを組み合わせた教師付きモデルを提案する。
オリジナルのベンチマークの有望な結果とは対照的に、より小さな矛盾部分集合での最高のモデルのパフォーマンスは貧弱であることが分かりました。
結論:本研究では,生物医学領域における意味的類似度推定のためのニューラルネットワークベースのモデルの価値を強調し,バイオメディカル・ベンチマーク・セットで評価した場合に,精査されたオントロジの可用性に依存する,従来の意味的類似度推定手法に追随し,さらにそれを超えることができることを示した。
しかし、生物医学的な文章の矛盾や否定を捉えることは、さらなる研究に欠かせない領域として現れた。
関連論文リスト
- Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all [1.507700065820919]
転写学的シークエンシングの最近の進歩は、価値ある洞察を明らかにする新しい機会を提供する。
摂動解析におけるこれらの上昇モデルの有効性をしっかり評価するためのベンチマークは行われていない。
本稿では,生物学的に動機づけた新しい評価フレームワークと摂動解析タスクの階層について述べる。
論文 参考訳(メタデータ) (2024-10-17T18:27:51Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Counterfactual Data Augmentation with Contrastive Learning [27.28511396131235]
本稿では,選択したサブセットに対して,結果に反する結果をもたらすモデルに依存しないデータ拡張手法を提案する。
我々は、比較学習を用いて表現空間と類似度尺度を学習し、学習された類似度尺度で同定された個人に近い学習空間において、同様の潜在的な結果が得られるようにした。
この性質は、代替治療群から近接した近縁者に対する対実的な結果の信頼性の高い計算を保証する。
論文 参考訳(メタデータ) (2023-11-07T00:36:51Z) - Simulation-based Inference for Cardiovascular Models [57.92535897767929]
シミュレーションに基づく推論を用いて、波形をプラプシブルな生理的パラメータにマッピングする逆問題を解決する。
臨床応用5種類のバイオマーカーのin-silico不確実性解析を行った。
我々はMIMIC-III波形データベースを用いて,ビビオとシリカのギャップについて検討した。
論文 参考訳(メタデータ) (2023-07-26T02:34:57Z) - A Generative Modeling Framework for Inferring Families of Biomechanical
Constitutive Laws in Data-Sparse Regimes [0.15658704610960567]
本稿では,データスパース体制における関係の家族を効率的に推定する新しい手法を提案する。
機能的先行概念に着想を得て,ニューラル演算子をジェネレータとし,完全接続ネットワークを敵判別器として組み込んだ生成ネットワーク(GAN)を開発した。
論文 参考訳(メタデータ) (2023-05-04T22:07:27Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Multi-Ontology Refined Embeddings (MORE): A Hybrid Multi-Ontology and
Corpus-based Semantic Representation for Biomedical Concepts [0.5812284760539712]
本稿では,複数のオントロジからのドメイン知識を分散意味モデルに組み込むためのフレームワークであるMOREを紹介する。
我々は、MOREのコーパスベースのコンポーネントとして、RadCoreとMIMIC-IIIのフリーテキストデータセットを使用します。
コーパスベースでは,メディカル・サブジェクト・ヘッダー(MeSH)と3つの最先端の類似度尺度を用いる。
論文 参考訳(メタデータ) (2020-04-14T14:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。