論文の概要: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- arxiv url: http://arxiv.org/abs/2305.11991v2
- Date: Mon, 3 Jul 2023 18:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:19:32.870473
- Title: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- Title(参考訳): ゼロショットクローズドブック生成質問応答における中大言語モデルの評価
- Authors: Ren\'e Peinl and Johannes Wirth
- Abstract要約: 本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。
本研究は,外部文書検索を行なわずに精巧な回答をモデルに求めるゼロショット生成質問応答を評価する。
その結果、最高の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have garnered significant attention, but the
definition of "large" lacks clarity. This paper focuses on medium-sized
language models (MLMs), defined as having at least six billion parameters but
less than 100 billion. The study evaluates MLMs regarding zero-shot generative
question answering, which requires models to provide elaborate answers without
external document retrieval. The paper introduces an own test dataset and
presents results from human evaluation. Results show that combining the best
answers from different MLMs yielded an overall correct answer rate of 82.7%
which is better than the 60.9% of ChatGPT. The best MLM achieved 71.8% and has
33B parameters, which highlights the importance of using appropriate training
data for fine-tuning rather than solely relying on the number of parameters.
More fine-grained feedback should be used to further improve the quality of
answers. The open source community is quickly closing the gap to the best
commercial models.
- Abstract(参考訳): 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。
本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。
本研究は,ゼロショット生成質問応答に関するMDMを評価し,外部文書検索を行なわずに精巧な回答を提供するモデルを提案する。
本論文は、独自のテストデータセットを導入し、人間の評価結果を示す。
その結果、異なるMLMからの最良の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
最高のMLMは71.8%を達成し、33Bパラメータを持ち、パラメータの数にのみ依存するのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。
よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。
オープンソースコミュニティは、最高の商用モデルとのギャップを急速に埋めています。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文 参考訳(メタデータ) (2024-09-26T14:51:40Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Self-Refinement of Language Models from External Proxy Metrics Feedback [27.57840561708484]
ProMiSe(Proxy Metric-based Self-Refinement)
ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。
オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
論文 参考訳(メタデータ) (2024-02-27T19:13:01Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。