論文の概要: WHERE and WHICH: Iterative Debate for Biomedical Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2503.23673v1
- Date: Mon, 31 Mar 2025 02:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:43.287302
- Title: WHERE and WHICH: Iterative Debate for Biomedical Synthetic Data Augmentation
- Title(参考訳): WHEREとWHICH: バイオメディカルシンセティックデータ拡張のための反復的議論
- Authors: Zhengyi Zhao, Shubo Zhang, Bin Liang, Binyang Li, Kam-Fai Wong,
- Abstract要約: 本稿では,バイオメディカルな有理量に基づく合成データ拡張法を提案する。
生体相関と強い相関関係を有する拡張インスタンスを保持するために, 特定の生体相関類似度を測定した。
提案手法をBLURBおよびBigBIOベンチマークで評価し、4つの主要なBioNLPタスクにまたがる9つの共通データセットを含む。
- 参考スコア(独自算出の注目度): 17.956185532113
- License:
- Abstract: In Biomedical Natural Language Processing (BioNLP) tasks, such as Relation Extraction, Named Entity Recognition, and Text Classification, the scarcity of high-quality data remains a significant challenge. This limitation poisons large language models to correctly understand relationships between biological entities, such as molecules and diseases, or drug interactions, and further results in potential misinterpretation of biomedical documents. To address this issue, current approaches generally adopt the Synthetic Data Augmentation method which involves similarity computation followed by word replacement, but counterfactual data are usually generated. As a result, these methods disrupt meaningful word sets or produce sentences with meanings that deviate substantially from the original context, rendering them ineffective in improving model performance. To this end, this paper proposes a biomedical-dedicated rationale-based synthetic data augmentation method. Beyond the naive lexicon similarity, specific bio-relation similarity is measured to hold the augmented instance having a strong correlation with bio-relation instead of simply increasing the diversity of augmented data. Moreover, a multi-agents-involved reflection mechanism helps the model iteratively distinguish different usage of similar entities to escape falling into the mis-replace trap. We evaluate our method on the BLURB and BigBIO benchmark, which includes 9 common datasets spanning four major BioNLP tasks. Our experimental results demonstrate consistent performance improvements across all tasks, highlighting the effectiveness of our approach in addressing the challenges associated with data scarcity and enhancing the overall performance of biomedical NLP models.
- Abstract(参考訳): バイオメディカル自然言語処理(BioNLP)タスクでは、関係抽出、名前付きエンティティ認識、テキスト分類など、高品質なデータの不足が大きな課題である。
この制限は、分子や疾患、薬物相互作用などの生物学的実体間の関係を正しく理解するために、大きな言語モデルに悪影響を及ぼす。
この問題に対処するために、現在のアプローチでは、類似性計算と単語置換を伴うSynthetic Data Augmentation法が一般的であるが、反実データは通常、生成される。
その結果、これらの手法は意味のある単語集合を妨害したり、本来の文脈から大きく逸脱した意味を持つ文を生成したりし、モデルの性能を改善するのに効果がない。
そこで本研究では,バイオメディカルな有理量に基づく合成データ拡張法を提案する。
生のレキシコン類似性以外にも、特定のバイオリレーション類似性を測定して、強化データの多様性を単に増大させるのではなく、バイオリレーションと強い相関関係を持つ強化インスタンスを保持する。
さらに、マルチエージェントが関与するリフレクション機構は、モデルが類似したエンティティの異なる使い方を反復的に区別し、ミス・リプレース・トラップに落ちないようにするのに役立つ。
提案手法をBLURBおよびBigBIOベンチマークで評価し、4つの主要なBioNLPタスクにまたがる9つの共通データセットを含む。
実験の結果、全てのタスクにおいて一貫した性能向上が示され、データ不足に伴う課題に対処する上でのアプローチの有効性と、バイオメディカルNLPモデルの全体的な性能向上が明らかにされた。
関連論文リスト
- Biomedical Relation Extraction via Adaptive Document-Relation Cross-Mapping and Concept Unique Identifier [35.79876359248485]
Document-Level Biomedical Relation extract (Bio-RE) は、バイオメディカルエンティティ間の関係を広範囲にわたるテキスト内で識別することを目的としている。
従来の手法は文書の不完全性を見落とし、外部知識の統合を欠いていることが多い。
大規模言語モデル(LLM)の最近の進歩は、ドキュメントレベルのBio-REに関する上記の問題をすべて探求するきっかけとなりました。
論文 参考訳(メタデータ) (2025-01-09T11:19:40Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Embracing assay heterogeneity with neural processes for markedly
improved bioactivity predictions [0.276240219662896]
リガンドの生物活性を予測することは、コンピュータ支援薬物発見において最も困難かつ最も重要な課題の1つである。
長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一である。
異種アッセイ間の情報シナジーを利用した階層型メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:26:58Z) - Comparative Performance Evaluation of Large Language Models for
Extracting Molecular Interactions and Pathway Knowledge [6.244840529371179]
タンパク質の相互作用と経路の知識を理解することは、生きたシステムの複雑さを解き明かすのに不可欠です。
既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供しているが、そのメンテナンスは労働集約的である。
本稿では,これらの問題に対処する大規模言語モデルの能力を活用し,関連する科学文献からそのような知識を自動的に抽出することを提案する。
論文 参考訳(メタデータ) (2023-07-17T20:01:11Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - An Empirical Study on Relation Extraction in the Biomedical Domain [0.0]
文レベルの関係抽出と文書レベルの関係抽出について検討し、いくつかのベンチマークデータセット上で最先端の手法を実行する。
以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-12-11T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。