Fugu-MT 論文翻訳(概要): The SourceData-NLP dataset: integrating curation into scientific publishing for training large language models

論文の概要: The SourceData-NLP dataset: integrating curation into scientific publishing for training large language models

arxiv url: http://arxiv.org/abs/2310.20440v1
Date: Tue, 31 Oct 2023 13:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 15:09:49.017531
Title: The SourceData-NLP dataset: integrating curation into scientific publishing for training large language models
Title（参考訳）: SourceData-NLPデータセット:大言語モデルのトレーニングのためのキュレーションを科学出版に統合する
Authors: Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Thomas Lemberger
Abstract要約: 本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
参考スコア（独自算出の注目度）: 1.0423199374671421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Introduction: The scientific publishing landscape is expanding rapidly, creating challenges for researchers to stay up-to-date with the evolution of the literature. Natural Language Processing (NLP) has emerged as a potent approach to automating knowledge extraction from this vast amount of publications and preprints. Tasks such as Named-Entity Recognition (NER) and Named-Entity Linking (NEL), in conjunction with context-dependent semantic interpretation, offer promising and complementary approaches to extracting structured information and revealing key concepts. Results: We present the SourceData-NLP dataset produced through the routine curation of papers during the publication process. A unique feature of this dataset is its emphasis on the annotation of bioentities in figure legends. We annotate eight classes of biomedical entities (small molecules, gene products, subcellular components, cell lines, cell types, tissues, organisms, and diseases), their role in the experimental design, and the nature of the experimental method as an additional class. SourceData-NLP contains more than 620,000 annotated biomedical entities, curated from 18,689 figures in 3,223 papers in molecular and cell biology. We illustrate the dataset's usefulness by assessing BioLinkBERT and PubmedBERT, two transformers-based models, fine-tuned on the SourceData-NLP dataset for NER. We also introduce a novel context-dependent semantic task that infers whether an entity is the target of a controlled intervention or the object of measurement. Conclusions: SourceData-NLP's scale highlights the value of integrating curation into publishing. Models trained with SourceData-NLP will furthermore enable the development of tools able to extract causal hypotheses from the literature and assemble them into knowledge graphs.
Abstract（参考訳）: 序文: 科学出版の世界は急速に拡大しており、研究者が文学の進化に合わせて最新の状態を維持するための課題を生み出している。自然言語処理(NLP)は、この膨大な出版物や事前印刷物から知識抽出を自動化する強力なアプローチとして登場した。名前付きエンティティ認識(ner)や名前付きエンティティリンク(nel)といったタスクは、コンテキスト依存のセマンティック解釈と合わせて、構造化された情報抽出と重要な概念の明確化に有望で補完的なアプローチを提供する。結果: 出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。このデータセットのユニークな特徴は、図形伝説における生物のアノテーションに重点を置いていることである。我々は,8種類の生物医学的実体(小分子,遺伝子産物,細胞内成分,細胞株,細胞タイプ,組織,生物,病気)を注釈し,実験設計におけるそれらの役割と,実験方法の性質を追加クラスとして検討した。 sourcedata-nlpは、分子生物学および細胞生物学の3,223の論文に18,689の数字からまとめられた、620,000以上の注釈付きバイオメディカルエンティティを含んでいる。 NERのためのSourceData-NLPデータセットを微調整した2つのトランスフォーマーベースモデルであるBioLinkBERTとPubmedBERTを評価することにより、データセットの有用性を説明する。また、制御された介入の対象物なのか測定対象物なのかを推測する文脈依存型セマンティックタスクも導入する。結論: SourceData-NLPのスケールは、キュレーションをパブリッシングに統合する価値を強調します。 SourceData-NLPでトレーニングされたモデルは、さらに、文献から因果仮説を抽出し、それらを知識グラフに組み立てるツールの開発を可能にする。

関連論文リスト

Open-PMC-18M: A High-Fidelity Large Scale Medical Dataset for Multimodal Representation Learning [0.03214166687856062]
本稿では,トランスを用いたオブジェクト検出に基づくスケーラブルなサブフィギュア抽出パイプラインを提案する。我々は,大規模バイオメディカルビジョン言語データセットであるOPEN-PMC-18Mをリリースする。検索性能の改善,ゼロショット分類,ロバストネスベンチマークを示す。
論文参考訳（メタデータ） (2025-06-03T10:53:19Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では,データ合成における生成モデルの利用について検討する。本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once [58.41069132627823]
全体像解析は、セグメンテーション、検出、関連するオブジェクトの認識などのサブタスクを含む。そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。共同学習により、個々のタスクの精度を向上し、テキストプロンプトを通じてノイズの多い画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にする。
論文参考訳（メタデータ） (2024-05-21T17:54:06Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文参考訳（メタデータ） (2024-03-03T14:59:47Z)
Exploring the Effectiveness of Instruction Tuning in Biomedical Language Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文参考訳（メタデータ） (2023-12-31T20:02:10Z)
Improving Biomedical Abstractive Summarisation with Knowledge Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文参考訳（メタデータ） (2023-10-24T09:56:46Z)
UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文参考訳（メタデータ） (2023-07-20T18:08:34Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
PharmKE: Knowledge Extraction Platform for Pharmaceutical Texts using Transfer Learning [0.0]
PharmKEは、医薬品のセマンティック分析を徹底するために、いくつかの段階を通じてディープラーニングを適用するテキスト分析プラットフォームです。この方法論は、正確なラベル付きトレーニングとテストデータセットの作成に使用され、カスタムエンティティラベリングタスクのモデルトレーニングに使用されます。得られた結果は、同じデータセットで訓練された微調整BERTおよびBioBERTモデルと比較されます。
論文参考訳（メタデータ） (2021-02-25T19:36:35Z)
Data Mining in Clinical Trial Text: Transformers for Classification and Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文参考訳（メタデータ） (2020-01-30T11:45:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。