論文の概要: Using Large Language Models to Automate Category and Trend Analysis of
Scientific Articles: An Application in Ophthalmology
- arxiv url: http://arxiv.org/abs/2308.16688v1
- Date: Thu, 31 Aug 2023 12:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:36:15.848138
- Title: Using Large Language Models to Automate Category and Trend Analysis of
Scientific Articles: An Application in Ophthalmology
- Title(参考訳): 大規模言語モデルを用いた科学論文のカテゴリー分析とトレンド分析:眼科への応用
- Authors: Hina Raja, Asim Munawar, Mohammad Delsoz, Mohammad Elahi, Yeganeh
Madadi, Amr Hassan, Hashem Abu Serhan, Onur Inam, Luis Hermandez, Sang Tran,
Wuqas Munir, Alaa Abd-Alrazaq, Hao Chen, and SiamakYousefi
- Abstract要約: 本稿では,Large Language Models (LLM) のパワーを活用した記事分類の自動手法を提案する。
平均精度は0.86、平均F1は0.85である。
モデルの他の科学分野への拡張性は、様々な分野にわたる研究やトレンド分析の促進にその影響を広げる。
- 参考スコア(独自算出の注目度): 4.455826633717872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: In this paper, we present an automated method for article
classification, leveraging the power of Large Language Models (LLM). The
primary focus is on the field of ophthalmology, but the model is extendable to
other fields. Methods: We have developed a model based on Natural Language
Processing (NLP) techniques, including advanced LLMs, to process and analyze
the textual content of scientific papers. Specifically, we have employed
zero-shot learning (ZSL) LLM models and compared against Bidirectional and
Auto-Regressive Transformers (BART) and its variants, and Bidirectional Encoder
Representations from Transformers (BERT), and its variant such as distilBERT,
SciBERT, PubmedBERT, BioBERT. Results: The classification results demonstrate
the effectiveness of LLMs in categorizing large number of ophthalmology papers
without human intervention. Results: To evalute the LLMs, we compiled a dataset
(RenD) of 1000 ocular disease-related articles, which were expertly annotated
by a panel of six specialists into 15 distinct categories. The model achieved
mean accuracy of 0.86 and mean F1 of 0.85 based on the RenD dataset.
Conclusion: The proposed framework achieves notable improvements in both
accuracy and efficiency. Its application in the domain of ophthalmology
showcases its potential for knowledge organization and retrieval in other
domains too. We performed trend analysis that enables the researchers and
clinicians to easily categorize and retrieve relevant papers, saving time and
effort in literature review and information gathering as well as identification
of emerging scientific trends within different disciplines. Moreover, the
extendibility of the model to other scientific fields broadens its impact in
facilitating research and trend analysis across diverse disciplines.
- Abstract(参考訳): 目的:本稿では,大規模言語モデル(llm)のパワーを活用した記事分類の自動化手法を提案する。
主な焦点は眼科の分野であるが、モデルは他の分野にも拡張可能である。
方法:我々は,学術論文のテキスト内容の処理と解析を行うために,高度LLMを含む自然言語処理(NLP)技術に基づくモデルを開発した。
具体的には、ゼロショット学習(ZSL)LLMモデルを用いて、双方向・自動回帰変換器(BART)とその変種と、変換器(BERT)からの双方向エンコーダ表現と、 distilBERT, SciBERT, PubmedBERT, BioBERTなどの変種を比較した。
結果: 分類結果は, 人間の介入なしに多数の眼科用紙を分類する上で, LLMsの有効性を示した。
結果: llmを評価するために,6人の専門家からなるパネルによって15のカテゴリに分類された1000の眼疾患関連論文のデータセット (rend) を編集した。
このモデルは、rendデータセットに基づく平均精度0.86、平均f1.85を達成した。
結論:提案フレームワークは精度と効率の両方において顕著な改善を達成している。
眼科領域におけるその応用は、他の領域における知識の組織化と検索の可能性を示している。
論文の分類と検索,文献レビューや情報収集に要する時間と労力の節約,分野による新たな科学的傾向の特定など,研究者や臨床医が容易に対応できる傾向分析を行った。
さらに、このモデルの他の科学分野への拡張性は、様々な分野にわたる研究とトレンド分析の促進にその影響を広げる。
関連論文リスト
- Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies [8.822087602255504]
大きな言語モデルを臨床領域に適用することは、医療記録を処理するという文脈重大な性質のために困難である。
本稿では, 組込みモデルとプール法の違いが臨床領域の情報検索に与える影響について検討する。
論文 参考訳(メタデータ) (2024-09-23T16:16:08Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。
フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。
この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。