論文の概要: Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows
- arxiv url: http://arxiv.org/abs/2411.19295v2
- Date: Mon, 10 Mar 2025 14:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:22.027456
- Title: Extracting Information in a Low-resource Setting: Case Study on Bioinformatics Workflows
- Title(参考訳): 低リソース環境での情報抽出:バイオインフォマティクスのワークフローを事例として
- Authors: Clémence Sebe, Sarah Cohen-Boulakia, Olivier Ferret, Aurélie Névéol,
- Abstract要約: 16のエンティティをアノテートした52の新たなコーパスであるBioToFlowを使用して、SciBERTベースのNERモデルは、アノテータ間の合意に匹敵する70.4F尺度を達成した。
バイオインフォマティクスのための高性能情報抽出が実現可能であることを示す。
- 参考スコア(独自算出の注目度): 4.233057527906435
- License:
- Abstract: Bioinformatics workflows are essential for complex biological data analyses and are often described in scientific articles with source code in public repositories. Extracting detailed workflow information from articles can improve accessibility and reusability but is hindered by limited annotated corpora. To address this, we framed the problem as a low-resource extraction task and tested four strategies: 1) creating a tailored annotated corpus, 2) few-shot named-entity recognition (NER) with an autoregressive language model, 3) NER using masked language models with existing and new corpora, and 4) integrating workflow knowledge into NER models. Using BioToFlow, a new corpus of 52 articles annotated with 16 entities, a SciBERT-based NER model achieved a 70.4 F-measure, comparable to inter-annotator agreement. While knowledge integration improved performance for specific entities, it was less effective across the entire information schema. Our results demonstrate that high-performance information extraction for bioinformatics workflows is achievable.
- Abstract(参考訳): バイオインフォマティクスのワークフローは複雑な生物学的データ解析に不可欠であり、しばしば公開リポジトリのソースコードを持つ科学論文に記述されている。
記事から詳細なワークフロー情報を抽出することで、アクセシビリティと再利用性が向上するが、限定的な注釈付きコーパスによって妨げられる。
この問題に対処するため、我々は低リソース抽出タスクとしてこの問題を定式化し、以下の4つの戦略を検証した。
1) アノテーション付きコーパスの作成
2) 自己回帰言語モデルを用いたNER (Not-shot named-entity Recognition)。
3)既存のコーパスと新しいコーパスを用いたマスキング言語モデルを用いたNER
4)ワークフロー知識をNERモデルに統合する。
16のエンティティをアノテートした52の新たなコーパスであるBioToFlowを使用して、SciBERTベースのNERモデルは、アノテータ間の合意に匹敵する70.4F尺度を達成した。
知識統合は特定のエンティティのパフォーマンスを改善したが、情報スキーマ全体では効果が低かった。
バイオインフォマティクスのワークフローにおける高性能な情報抽出が実現可能であることを示す。
関連論文リスト
- Enhancing Biomedical Relation Extraction with Directionality [4.0241840878351764]
本稿では,ソフトプロンプト学習を用いたマルチタスク言語モデルを提案する。
その結果,10,864の方向アノテーションを付加した濃厚なBioREDコーパスが得られた。
論文 参考訳(メタデータ) (2025-01-23T20:36:11Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Into the Single Cell Multiverse: an End-to-End Dataset for Procedural
Knowledge Extraction in Biomedical Texts [2.2578044590557553]
FlaMB'eは、バイオメディカルテキストの手続き的知識をキャプチャする専門家によるデータセットのコレクションである。
このデータセットは、非構造化テキストとして記述される手続き的知識のユビキタスソースが、その方法論を記述する学術論文の中にあるという観察にインスパイアされている。
論文 参考訳(メタデータ) (2023-09-04T21:02:36Z) - A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations [22.668383945059762]
そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。
評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。
これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - Sectioning of Biomedical Abstracts: A Sequence of Sequence
Classification Task [0.0]
本研究では,SSN-4モデルと呼ぶ最先端のディープラーニングモデルについて検討する。
我々は、このモデルがRandomized Controlled Trials(RCT)データセット以外の新しいデータセットにどのように一般化するかを検討する。
その結果, SSN-4 モデルでは RCT データセットをはるかに超えた一般化は得られなかった。
論文 参考訳(メタデータ) (2022-01-18T16:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。