論文の概要: MeSHup: A Corpus for Full Text Biomedical Document Indexing
- arxiv url: http://arxiv.org/abs/2204.13604v1
- Date: Thu, 28 Apr 2022 16:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 17:02:00.920347
- Title: MeSHup: A Corpus for Full Text Biomedical Document Indexing
- Title(参考訳): meshup: 全文生物医学文書インデックス作成のためのコーパス
- Authors: Xindi Wang, Robert E. Mercer, Frank Rudzicz
- Abstract要約: 我々は、英語で1,342,667のフルテキスト記事を含む大規模注釈付きMeSHインデックスコーパスMeSHupをリリースする。
コーパス上の文書とその関連ラベルの機能を組み合わせたエンドツーエンドモデルをトレーニングし、新しいベースラインを報告します。
- 参考スコア(独自算出の注目度): 19.321887243319924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Subject Heading (MeSH) indexing refers to the problem of assigning a
given biomedical document with the most relevant labels from an extremely large
set of MeSH terms. Currently, the vast number of biomedical articles in the
PubMed database are manually annotated by human curators, which is time
consuming and costly; therefore, a computational system that can assist the
indexing is highly valuable. When developing supervised MeSH indexing systems,
the availability of a large-scale annotated text corpus is desirable. A
publicly available, large corpus that permits robust evaluation and comparison
of various systems is important to the research community. We release a large
scale annotated MeSH indexing corpus, MeSHup, which contains 1,342,667 full
text articles in English, together with the associated MeSH labels and
metadata, authors, and publication venues that are collected from the MEDLINE
database. We train an end-to-end model that combines features from documents
and their associated labels on our corpus and report the new baseline.
- Abstract(参考訳): MeSHインデックス(Messical Subject Heading)とは、非常に大きなMeSH用語から、与えられたバイオメディカル文書を最も関連性の高いラベルに割り当てる問題である。
現在、PubMedデータベースの膨大な数のバイオメディカル記事は人事キュレーターによって手動で注釈付けされており、それは時間と費用がかかり、索引付けを補助できる計算システムは非常に貴重である。
教師付きMeSHインデックスシステムを開発する際には,大規模注釈付きテキストコーパスの利用が望ましい。
様々なシステムの堅牢な評価と比較を可能にする,公開可能な大規模コーパスは,研究コミュニティにとって重要である。
我々は、MEDLINEデータベースから収集されたMeSHラベルとメタデータ、著者、出版会場とともに、英語で1,342,667のフルテキスト記事を含む大規模注釈付きMeSHインデックスコーパスMeSHupをリリースした。
コーパス上の文書とその関連ラベルの機能を組み合わせたエンドツーエンドモデルをトレーニングし、新しいベースラインを報告します。
関連論文リスト
- AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.90354530235266]
本稿では,自己学習仮説文書埋め込み (SL-HyDE) という新しい手法を導入し,この問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文 参考訳(メタデータ) (2024-10-26T02:53:20Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain [9.91205505704257]
本稿では,医療領域における文章レベルとスパンレベルの両方における可読性測定の体系的研究について述べる。
我々は、手動で注釈付けされた可読性評価と4,520文の詳細な複合スパンアノテーションからなる新しいデータセットMedReadMeを導入する。
既存の可読性式に1つの特徴を加えることで、人間の判断との相関を著しく改善できることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:48:20Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - PGB: A PubMed Graph Benchmark for Heterogeneous Network Representation
Learning [5.747361083768407]
バイオメディカル文献のための異種グラフ埋め込み評価のための新しいベンチマークであるPubMed Graph Benchmark (PGB)を紹介する。
ベンチマークには、抽象的な著者、引用、MeSH階層、MeSH階層、その他の情報を含む豊富なメタデータが含まれている。
論文 参考訳(メタデータ) (2023-05-04T10:09:08Z) - KenMeSH: Knowledge-enhanced End-to-end Biomedical Text Labelling [19.321887243319924]
現在、MeSH(Messical Subject Headings)は、PubMedデータベースに記録されたすべてのバイオメディカル記事に手動で割り当てられ、関連する情報の検索を容易にする。
我々は、新しいテキスト機能と動的textbfKnowledge-textbfenhancedマスクアテンションを組み合わせたエンドツーエンドモデルであるKenMeSHを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:09:56Z) - Zero-Shot and Few-Shot Classification of Biomedical Articles in Context
of the COVID-19 Pandemic [9.69016170685883]
新型コロナウイルス(COVID-19)パンデミックの文脈では、MeSH記述子は対応するトピックに関する記事に関連して現れている。
本研究では、MeSHで利用可能なリッチな意味情報は、BioBERT表現を改善する可能性があると仮定する。
論文 参考訳(メタデータ) (2022-01-09T14:12:48Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - MedICaT: A Dataset of Medical Images, Captions, and Textual References [71.3960667004975]
以前の研究は、画像がテキストにどのように関係しているかを理解するのではなく、図形コンテンツを分類することに焦点を当てていた。
MedICaTは131Kのオープンアクセスバイオメディカルペーパーから217Kの画像で構成されている。
MedICaTを用いて,複合図形におけるサブフィギュアとサブキャプションアライメントの課題を紹介する。
論文 参考訳(メタデータ) (2020-10-12T19:56:08Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。