論文の概要: Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks
- arxiv url: http://arxiv.org/abs/2407.13511v1
- Date: Thu, 18 Jul 2024 13:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:10:55.479415
- Title: Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks
- Title(参考訳): オープンソースLLMは商用モデルと相容れないか? : 生物医学的課題における現行GPTモデルのFew-Shot性能を探求する
- Authors: Samy Ateia, Udo Kruschwitz,
- Abstract要約: GPT 3 Opus, GPT-3.5-turbo, Mixtral 8x7b, in-context learning (zero-shot, few-shot) and QLoRa fine-tuning。
以上の結果から,RAGセットアップにおける商用モデルとオープンソースモデルのパフォーマンスギャップは主にゼロショット設定にあることが示唆された。
- 参考スコア(独自算出の注目度): 1.6819960041696331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commercial large language models (LLMs), like OpenAI's GPT-4 powering ChatGPT and Anthropic's Claude 3 Opus, have dominated natural language processing (NLP) benchmarks across different domains. New competing Open-Source alternatives like Mixtral 8x7B or Llama 3 have emerged and seem to be closing the gap while often offering higher throughput and being less costly to use. Open-Source LLMs can also be self-hosted, which makes them interesting for enterprise and clinical use cases where sensitive data should not be processed by third parties. We participated in the 12th BioASQ challenge, which is a retrieval augmented generation (RAG) setting, and explored the performance of current GPT models Claude 3 Opus, GPT-3.5-turbo and Mixtral 8x7b with in-context learning (zero-shot, few-shot) and QLoRa fine-tuning. We also explored how additional relevant knowledge from Wikipedia added to the context-window of the LLM might improve their performance. Mixtral 8x7b was competitive in the 10-shot setting, both with and without fine-tuning, but failed to produce usable results in the zero-shot setting. QLoRa fine-tuning and Wikipedia context did not lead to measurable performance gains. Our results indicate that the performance gap between commercial and open-source models in RAG setups exists mainly in the zero-shot setting and can be closed by simply collecting few-shot examples for domain-specific use cases. The code needed to rerun these experiments is available through GitHub.
- Abstract(参考訳): OpenAIのGPT-4であるChatGPTやAnthropicのClaude 3 Opusのような商用の大規模言語モデル(LLM)は、さまざまなドメインにわたる自然言語処理(NLP)ベンチマークを支配している。
Mixtral 8x7BやLlama 3といった競合する新たなオープンソース代替製品が登場し、そのギャップを埋めつつ、高いスループットを提供し、使用コストの低減を図っている。
オープンソースのLCMは自己ホストすることもでき、サードパーティが機密データを処理すべきでない企業や臨床ユースケースにとって興味深い。
第12回BioASQチャレンジ(RAG)に参加し,現在のGPTモデル(Claude 3 Opus, GPT-3.5-turbo, Mixtral 8x7b)の性能について検討した。
また,LLMの文脈ウィンドウにウィキペディアの関連知識を追加することで,その性能が向上する可能性についても検討した。
ミキサール8x7bは微調整と無調整の両方で10ショット設定で競争力があったが、ゼロショット設定では使用可能な結果が得られなかった。
QLoRaの微調整とウィキペディアのコンテキストは測定可能なパフォーマンス向上には至らなかった。
以上の結果から,RAGセットアップにおける商用モデルとオープンソースモデルのパフォーマンスギャップは,主にゼロショット設定に存在し,ドメイン固有のユースケースに対する少数ショットのサンプルを集めるだけで,クローズできることが示唆された。
これらの実験を再実行するのに必要なコードはGitHubから入手できる。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data [0.0]
本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
我々はまず、Falcon-40Bモデルのオープンかつ非制限的命令微調整版を用いて、合成命令微調整データを生成する。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
論文 参考訳(メタデータ) (2024-04-18T13:57:18Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Comparing GPT-4 and Open-Source Language Models in Misinformation
Mitigation [6.929834518749884]
GPT-4は、この領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。
我々は、Zephyr-7bが、一般的なアプローチの重要な制限を克服し、一貫した代替手段を提供することを示す。
そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
論文 参考訳(メタデータ) (2024-01-12T22:27:25Z) - Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance [11.595274304409937]
大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらした。
レッツ・シンク・バイ・ステップ(Let's Think by Step)」のようなトリガーフレーズを使った現在の手法は依然として限られている。
本研究では,タスクインスタンスのゼロショットプロンプトを最適化するPRomPTedを導入する。
論文 参考訳(メタデータ) (2023-10-03T14:51:34Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - Zero is Not Hero Yet: Benchmarking Zero-Shot Performance of LLMs for
Financial Tasks [2.28438857884398]
最近、ChatGPTのような大きな言語モデル(LLM)は、ゼロショットで多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
ゼロショットモードにおけるChatGPTとオープンソースのジェネレーティブLLMの性能を,注釈付きデータに微調整したRoBERTaと比較した。
以上の結果から,ChatGPTはラベル付きデータなしでも良好に動作し,微調整モデルでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-05-26T05:13:01Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。