論文の概要: Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?
- arxiv url: http://arxiv.org/abs/2509.18843v1
- Date: Tue, 23 Sep 2025 09:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.79986
- Title: Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?
- Title(参考訳): バイオメディカル質問応答のための予備モデルへのギャップを埋める小型オープンウェイトLCM
- Authors: Damian Stachura, Joanna Konieczna, Artur Nowak,
- Abstract要約: 大規模言語モデル(LLM)のオープンウェイトバージョンは急速に進歩しており、DeepSeek-V3のような最先端モデルはプロプライエタリなLLMと互換性がある。
この進歩は、小規模なオープンウェイト LLM がより大きなクローズドソースモデルを効果的に置き換えられるかどうかという問題を提起する。
本研究では, GPT-4o, GPT-4.1, Claude 3.5 Sonnet, Claude 3.7 Sonnet など,いくつかのオープンウェイトモデルを比較した。
- 参考スコア(独自算出の注目度): 0.5692553719616764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight versions of large language models (LLMs) are rapidly advancing, with state-of-the-art models like DeepSeek-V3 now performing comparably to proprietary LLMs. This progression raises the question of whether small open-weight LLMs are capable of effectively replacing larger closed-source models. We are particularly interested in the context of biomedical question-answering, a domain we explored by participating in Task 13B Phase B of the BioASQ challenge. In this work, we compare several open-weight models against top-performing systems such as GPT-4o, GPT-4.1, Claude 3.5 Sonnet, and Claude 3.7 Sonnet. To enhance question answering capabilities, we use various techniques including retrieving the most relevant snippets based on embedding distance, in-context learning, and structured outputs. For certain submissions, we utilize ensemble approaches to leverage the diverse outputs generated by different models for exact-answer questions. Our results demonstrate that open-weight LLMs are comparable to proprietary ones. In some instances, open-weight LLMs even surpassed their closed counterparts, particularly when ensembling strategies were applied. All code is publicly available at https://github.com/evidenceprime/BioASQ-13b.
- Abstract(参考訳): 大規模言語モデル(LLM)のオープンウェイトバージョンは急速に進歩しており、DeepSeek-V3のような最先端モデルはプロプライエタリなLLMと互換性がある。
この進歩は、小規模なオープンウェイト LLM がより大きなクローズドソースモデルを効果的に置き換えられるかどうかという問題を提起する。
我々は特に,BioASQ チャレンジの第13B フェーズB に参加して探究したバイオメディカル質問応答の文脈に関心を抱いている。
本研究では, GPT-4o, GPT-4.1, Claude 3.5 Sonnet, Claude 3.7 Sonnet など,いくつかのオープンウェイトモデルを比較した。
質問応答能力を向上させるために,埋め込み距離,コンテキスト内学習,構造化出力に基づいて,最も関連性の高いスニペットを検索する。
特定の提案に対して、アンサンブルアプローチを用いて、異なるモデルが生成する多様な出力を正確な問合せ問題に活用する。
その結果,オープンウェイト LLM はプロプライエタリ LLM と同等であることがわかった。
オープンウェイト LLM は、特にアンサンブル戦略を適用したときに、クローズドな LLM を超越した例もある。
すべてのコードはhttps://github.com/evidenceprime/BioASQ-13bで公開されている。
関連論文リスト
- MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Logits of API-Protected LLMs Leak Proprietary Information [46.014638838911566]
大きな言語モデル(LLM)プロバイダは、制限されたAPIへのパブリックアクセスを制限することで、プロプライエタリなモデルのアーキテクチャの詳細とパラメータを隠蔽することが多い。
比較的少数のAPIクエリから,APIで保護されたLLMに関する驚くほど多くの非公開情報を学習することが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-14T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。