論文の概要: Evaluating the Effectiveness of Cost-Efficient Large Language Models in Benchmark Biomedical Tasks
- arxiv url: http://arxiv.org/abs/2507.14045v1
- Date: Fri, 18 Jul 2025 16:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.353463
- Title: Evaluating the Effectiveness of Cost-Efficient Large Language Models in Benchmark Biomedical Tasks
- Title(参考訳): ベンチマークバイオメディカルタスクにおける費用効率の高い大規模言語モデルの有効性の評価
- Authors: Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang,
- Abstract要約: 本稿では,コスト効率の高い大規模言語モデル (LLM) の包括的評価について述べる。
バイオメディカルテキストの分類と生成,質問応答,マルチモーダル画像処理などのタスクに対して,オープンソースかつクローズドなLCMについて検討した。
実験結果から, 特定の生体医学的応用に適したモデルを選択する上で, 有用な知見が得られた。
- 参考スコア(独自算出の注目度): 2.290986589177405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive evaluation of cost-efficient Large Language Models (LLMs) for diverse biomedical tasks spanning both text and image modalities. We evaluated a range of closed-source and open-source LLMs on tasks such as biomedical text classification and generation, question answering, and multimodal image processing. Our experimental findings indicate that there is no single LLM that can consistently outperform others across all tasks. Instead, different LLMs excel in different tasks. While some closed-source LLMs demonstrate strong performance on specific tasks, their open-source counterparts achieve comparable results (sometimes even better), with additional benefits like faster inference and enhanced privacy. Our experimental results offer valuable insights for selecting models that are optimally suited for specific biomedical applications.
- Abstract(参考訳): 本稿では,テキストと画像の両モードにまたがる多様なバイオメディカルタスクに対して,コスト効率の高い大規模言語モデル(LLM)を総合的に評価する。
バイオメディカルテキストの分類と生成,質問応答,マルチモーダル画像処理などのタスクに対して,オープンソースかつクローズドなLCMについて検討した。
実験結果から,全てのタスクにおいて連続的に他よりも優れるLCMは存在しないことが示唆された。
代わりに、異なるLLMは異なるタスクで優れている。
特定のタスクに対して強力なパフォーマンスを示すクローズドソースのLLMもあるが、オープンソースのLLMは、より高速な推論やプライバシー強化といった付加的なメリットによって、同等の結果(時にはさらに優れている)を達成している。
実験結果から, 特定の生体医学的応用に適したモデルを選択する上で, 有用な知見が得られた。
関連論文リスト
- LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。
質問応答や文書要約といったタスクに関して、ドメインエキスパートのパフォーマンスに到達します。
LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文 参考訳(メタデータ) (2024-08-22T09:37:40Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks [19.091278630792615]
既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。
多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
論文 参考訳(メタデータ) (2023-11-20T08:51:30Z) - A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks [2.5027382653219155]
本稿では,バイオメディカル・タスクのベンチマークにおいて,LLM(Large Language Models)の性能を評価することを目的とする。
我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
論文 参考訳(メタデータ) (2023-10-06T14:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。