論文の概要: Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers
- arxiv url: http://arxiv.org/abs/2306.04820v1
- Date: Wed, 7 Jun 2023 22:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:12:18.684874
- Title: Good Data, Large Data, or No Data? Comparing Three Approaches in
Developing Research Aspect Classifiers for Biomedical Papers
- Title(参考訳): 良いデータか、大きなデータか、データなしか?
バイオメディカルペーパー研究における3つのアプローチの比較
- Authors: Shreya Chandrasekhar, Chieh-Yang Huang, Ting-Hao 'Kenneth' Huang
- Abstract要約: クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響について検討した。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
- 参考スコア(独自算出の注目度): 19.1408856831043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific publications, particularly during the COVID-19
pandemic, emphasizes the need for tools to help researchers efficiently
comprehend the latest advancements. One essential part of understanding
scientific literature is research aspect classification, which categorizes
sentences in abstracts to Background, Purpose, Method, and Finding. In this
study, we investigate the impact of different datasets on model performance for
the crowd-annotated CODA-19 research aspect classification task. Specifically,
we explore the potential benefits of using the large, automatically curated
PubMed 200K RCT dataset and evaluate the effectiveness of large language models
(LLMs), such as LLaMA, GPT-3, ChatGPT, and GPT-4. Our results indicate that
using the PubMed 200K RCT dataset does not improve performance for the CODA-19
task. We also observe that while GPT-4 performs well, it does not outperform
the SciBERT model fine-tuned on the CODA-19 dataset, emphasizing the importance
of a dedicated and task-aligned datasets dataset for the target task. Our code
is available at https://github.com/Crowd-AI-Lab/CODA-19-exp.
- Abstract(参考訳): 特に新型コロナウイルス(covid-19)パンデミックの間、科学出版物の急速な成長は、研究者が最新の進歩を効率的に理解するためのツールの必要性を強調している。
科学文献を理解する上で重要な要素は研究側面の分類であり、文を背景、目的、方法、発見に分類する。
本研究では,クラウドアノテートされたCODA-19研究アスペクト分類タスクにおいて,異なるデータセットがモデル性能に与える影響を検討する。
具体的には,大規模で自動計算されたPubMed 200K RCTデータセットを使用することによる潜在的なメリットについて検討し,LLaMA,GPT-3,ChatGPT,GPT-4などの大規模言語モデル(LLM)の有効性を評価する。
その結果,PubMed 200K RCTデータセットではCODA-19タスクの性能が向上しないことがわかった。
また、GPT-4は良好に機能するが、CODA-19データセット上で調整されたSciBERTモデルよりも優れており、目標タスクに対する専用およびタスク対応データセットの重要性を強調している。
私たちのコードはhttps://github.com/crowd-ai-lab/coda-19-expで利用可能です。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model [0.0]
データレポジトリや資金調達機関による最近の取り組みにもかかわらず、データセットの引用は一般的でも標準的でもないことが示されています。
この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。
本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:12:37Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Robust COVID-19 Detection in CT Images with CLIP [21.809469794865887]
深層学習モデルは、特に新型コロナウイルス検出において、医療画像の課題に直面している。
凍結したCLIP画像エンコーダとトレーニング可能な多層認識(MLP)を活用して,これらの障害を克服するための最初の軽量検出器を提案する。
教師と学生のフレームワークを統合して、大量のラベルのないデータに便乗し、本質的なデータ制限にもかかわらず、我々のモデルは優れたパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2024-03-13T20:26:50Z) - An Information Retrieval and Extraction Tool for Covid-19 Related Papers [0.0]
本論文の主な焦点は、研究者に新型コロナウイルス関連論文のより良い検索ツールを提供することである。
我々は,CORD-19論文のトピックベースの検索を自動化し,研究者を支援する可能性を示した。
論文 参考訳(メタデータ) (2024-01-20T01:34:50Z) - Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline
Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。
この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。
この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文 参考訳(メタデータ) (2023-12-31T16:01:48Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Evaluating the effect of data augmentation and BALD heuristics on
distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。
本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。
また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文 参考訳(メタデータ) (2023-02-21T13:56:47Z) - Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models [0.0]
膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
論文 参考訳(メタデータ) (2021-10-18T20:06:01Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。