論文の概要: Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers
- arxiv url: http://arxiv.org/abs/2306.04820v1
- Date: Wed, 7 Jun 2023 22:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:12:18.684874
- Title: Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers
- Title(参考訳): 良いデータか、大きなデータか、データなしか?
バイオメディカルペーパー研究における3つのアプローチの比較
- Authors: Shreya Chandrasekhar, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang
- Abstract要約: クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
- 参考スコア(独自算出の注目度): 19.1408856831043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific publications, particularly during the COVID-19
pandemic, emphasizes the need for tools to help researchers efficiently
comprehend the latest advancements. One essential part of understanding
scientific literature is research aspect classification, which categorizes
sentences in abstracts to Background, Purpose, Method, and Finding. In this
study, we investigate the impact of different datasets on model performance for
the crowd-annotated CODA-19 research aspect classification task. Specifically,
we explore the potential benefits of using the large, automatically curated
PubMed 200K RCT dataset and evaluate the effectiveness of large language models
(LLMs), such as LLaMA, GPT-3, ChatGPT, and GPT-4. Our results indicate that
using the PubMed 200K RCT dataset does not improve performance for the CODA-19
task. We also observe that while GPT-4 performs well, it does not outperform
the SciBERT model fine-tuned on the CODA-19 dataset, emphasizing the importance
of a dedicated and task-aligned datasets dataset for the target task. Our code
is available at https://github.com/Crowd-AI-Lab/CODA-19-exp.
- Abstract(参考訳): 特に新型コロナウイルス(covid-19)パンデミックの間、科学出版物の急速な成長は、研究者が最新の進歩を効率的に理解するためのツールの必要性を強調している。
科学文献を理解する上で重要な要素は研究側面の分類であり、文を背景、目的、方法、発見に分類する。
本研究では,クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響を検討する。
具体的には,大規模で自動計算されたPubMed 200K RCTデータセットを使用することによる潜在的なメリットについて検討し,LLaMA,GPT-3,ChatGPT,GPT-4などの大規模言語モデル(LLM)の有効性を評価する。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
また、GPT-4は良好に機能するが、CODA-19データセット上で調整されたSciBERTモデルよりも優れており、目標タスクに対する専用およびタスク対応データセットの重要性を強調している。
私たちのコードはhttps://github.com/crowd-ai-lab/coda-19-expで利用可能です。
関連論文リスト
- Robust COVID-19 Detection in CT Images with CLIP [13.798995360560063]
深層学習モデルは、特に新型コロナウイルス検出において、医療画像の課題に直面している。
凍結したCLIP画像エンコーダとトレーニング可能な多層認識(MLP)を活用して,これらの障害を克服するための最初の軽量検出器を提案する。
教師と学生のフレームワークを統合して、大量のラベルのないデータに便乗し、本質的なデータ制限にもかかわらず、我々のモデルは優れたパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2024-03-13T20:26:50Z) - An Information Retrieval and Extraction Tool for Covid-19 Related Papers [0.0]
本論文の主な焦点は、研究者に新型コロナウイルス関連論文のより良い検索ツールを提供することである。
我々は,CORD-19論文のトピックベースの検索を自動化し,研究者を支援する可能性を示した。
論文 参考訳(メタデータ) (2024-01-20T01:34:50Z) - Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline
Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。
この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。
この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文 参考訳(メタデータ) (2023-12-31T16:01:48Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - An Ensemble Deep Learning Approach for COVID-19 Severity Prediction
Using Chest CT Scans [8.512389316218943]
胸部CTによる重症度予測について検討した。
我々は複数のニューラルネットワークを組み込んで予測を改善するアンサンブル深層学習モデルを開発した。
論文 参考訳(メタデータ) (2023-05-17T10:43:15Z) - Evaluating the effect of data augmentation and BALD heuristics on
distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。
本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。
また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文 参考訳(メタデータ) (2023-02-21T13:56:47Z) - MDistMult: A Multiple Scoring Functions Model for Link Prediction on
Antiviral Drugs Knowledge Graph [7.025654957281267]
リンク予測タスクは、(e, r, t) または (h, r, e) の欠落したエンティティを予測することを目的としており、h と t は特定のエンティティであり、e は予測が必要なエンティティであり、r は関係である。
本稿では,複数のスコアリング関数を利用して既存のトリプルからより多くの特徴を抽出するMDistMultモデルを提案する。
論文 参考訳(メタデータ) (2021-11-29T11:51:20Z) - Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models [0.0]
膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
論文 参考訳(メタデータ) (2021-10-18T20:06:01Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。