論文の概要: Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?
- arxiv url: http://arxiv.org/abs/2509.18843v1
- Date: Tue, 23 Sep 2025 09:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.79986
- Title: Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering?
- Title(参考訳): バイオメディカル質問応答のための予備モデルへのギャップを埋める小型オープンウェイトLCM
- Authors: Damian Stachura, Joanna Konieczna, Artur Nowak,
- Abstract要約: 大規模言語モデル(LLM)のオープンウェイトバージョンは急速に進歩しており、DeepSeek-V3のような最先端モデルはプロプライエタリなLLMと互換性がある。
この進歩は、小規模なオープンウェイト LLM がより大きなクローズドソースモデルを効果的に置き換えられるかどうかという問題を提起する。
本研究では, GPT-4o, GPT-4.1, Claude 3.5 Sonnet, Claude 3.7 Sonnet など,いくつかのオープンウェイトモデルを比較した。
- 参考スコア(独自算出の注目度): 0.5692553719616764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight versions of large language models (LLMs) are rapidly advancing, with state-of-the-art models like DeepSeek-V3 now performing comparably to proprietary LLMs. This progression raises the question of whether small open-weight LLMs are capable of effectively replacing larger closed-source models. We are particularly interested in the context of biomedical question-answering, a domain we explored by participating in Task 13B Phase B of the BioASQ challenge. In this work, we compare several open-weight models against top-performing systems such as GPT-4o, GPT-4.1, Claude 3.5 Sonnet, and Claude 3.7 Sonnet. To enhance question answering capabilities, we use various techniques including retrieving the most relevant snippets based on embedding distance, in-context learning, and structured outputs. For certain submissions, we utilize ensemble approaches to leverage the diverse outputs generated by different models for exact-answer questions. Our results demonstrate that open-weight LLMs are comparable to proprietary ones. In some instances, open-weight LLMs even surpassed their closed counterparts, particularly when ensembling strategies were applied. All code is publicly available at https://github.com/evidenceprime/BioASQ-13b.
- Abstract(参考訳): 大規模言語モデル(LLM)のオープンウェイトバージョンは急速に進歩しており、DeepSeek-V3のような最先端モデルはプロプライエタリなLLMと互換性がある。
この進歩は、小規模なオープンウェイト LLM がより大きなクローズドソースモデルを効果的に置き換えられるかどうかという問題を提起する。
我々は特に,BioASQ チャレンジの第13B フェーズB に参加して探究したバイオメディカル質問応答の文脈に関心を抱いている。
本研究では, GPT-4o, GPT-4.1, Claude 3.5 Sonnet, Claude 3.7 Sonnet など,いくつかのオープンウェイトモデルを比較した。
質問応答能力を向上させるために,埋め込み距離,コンテキスト内学習,構造化出力に基づいて,最も関連性の高いスニペットを検索する。
特定の提案に対して、アンサンブルアプローチを用いて、異なるモデルが生成する多様な出力を正確な問合せ問題に活用する。
その結果,オープンウェイト LLM はプロプライエタリ LLM と同等であることがわかった。
オープンウェイト LLM は、特にアンサンブル戦略を適用したときに、クローズドな LLM を超越した例もある。
すべてのコードはhttps://github.com/evidenceprime/BioASQ-13bで公開されている。
関連論文リスト
- Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - How Accurate Are LLMs at Multi-Question Answering on Conversational Transcripts? [5.0683148330498335]
大きな言語モデル(LLM)は、同じ会話コンテキストに基づいて複数の質問に答えることができる。
この課題に対して、広範な実験を行い、プロプライエタリモデルとパブリックモデルの両方をベンチマークします。
GPT-4oのような強力なプロプライエタリなLLMは、全体的な性能が最も優れているが、最大80億のパラメータを持つ微調整されたパブリックなLLMは、GPT-4oを精度良く超える可能性がある。
論文 参考訳(メタデータ) (2025-09-26T00:58:01Z) - Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities [0.0]
大規模言語モデル(LLM)は様々な分野をサポートするために広く使われているが、その選択肢モデリングの可能性はいまだに解明されていない。
本研究は, LLMの仕様における補助エージェントとしての可能性を検討するとともに, 技術的に実現可能なマルチノードロジットモデルの推定を行う。
論文 参考訳(メタデータ) (2025-07-29T13:24:44Z) - Open-Source LLMs Collaboration Beats Closed-Source LLMs: A Scalable Multi-Agent System [51.04535721779685]
本稿では,オープンソース集団の可能性と強みを実証することを目的とする。
高性能なマルチエージェント協調システム(MACS)フレームワークであるSMACSを提案する。
8つの主要なベンチマーク実験により、SMACSの有効性が検証された。
論文 参考訳(メタデータ) (2025-07-14T16:17:11Z) - Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning [20.784944581469205]
COLLATEは、(小さな)LLMをチューニングして、下流タスクを選択的に改善する多様な理性のプールから出力を生成するフレームワークである。
様々なパラメータスケール(1Bから8B)で異なるモデルファミリーのLCMに対してCOLLATEが有効であることを示すとともに、終了タスクによって導かれる複数の合理化プロバイダのメリットを示す。
論文 参考訳(メタデータ) (2025-06-03T06:50:08Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Logits of API-Protected LLMs Leak Proprietary Information [46.014638838911566]
大きな言語モデル(LLM)プロバイダは、制限されたAPIへのパブリックアクセスを制限することで、プロプライエタリなモデルのアーキテクチャの詳細とパラメータを隠蔽することが多い。
比較的少数のAPIクエリから,APIで保護されたLLMに関する驚くほど多くの非公開情報を学習することが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-14T16:27:49Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。