論文の概要: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- arxiv url: http://arxiv.org/abs/2305.11991v2
- Date: Mon, 3 Jul 2023 18:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:19:32.870473
- Title: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- Title(参考訳): ゼロショットクローズドブック生成質問応答における中大言語モデルの評価
- Authors: Ren\'e Peinl and Johannes Wirth
- Abstract要約: 本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。
本研究は,外部文書検索を行なわずに精巧な回答をモデルに求めるゼロショット生成質問応答を評価する。
その結果、最高の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have garnered significant attention, but the
definition of "large" lacks clarity. This paper focuses on medium-sized
language models (MLMs), defined as having at least six billion parameters but
less than 100 billion. The study evaluates MLMs regarding zero-shot generative
question answering, which requires models to provide elaborate answers without
external document retrieval. The paper introduces an own test dataset and
presents results from human evaluation. Results show that combining the best
answers from different MLMs yielded an overall correct answer rate of 82.7%
which is better than the 60.9% of ChatGPT. The best MLM achieved 71.8% and has
33B parameters, which highlights the importance of using appropriate training
data for fine-tuning rather than solely relying on the number of parameters.
More fine-grained feedback should be used to further improve the quality of
answers. The open source community is quickly closing the gap to the best
commercial models.
- Abstract(参考訳): 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。
本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。
本研究は,ゼロショット生成質問応答に関するMDMを評価し,外部文書検索を行なわずに精巧な回答を提供するモデルを提案する。
本論文は、独自のテストデータセットを導入し、人間の評価結果を示す。
その結果、異なるMLMからの最良の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
最高のMLMは71.8%を達成し、33Bパラメータを持ち、パラメータの数にのみ依存するのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。
よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。
オープンソースコミュニティは、最高の商用モデルとのギャップを急速に埋めています。
関連論文リスト
- Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Self-Refinement of Language Models from External Proxy Metrics Feedback [27.57840561708484]
ProMiSe(Proxy Metric-based Self-Refinement)
ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。
オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
論文 参考訳(メタデータ) (2024-02-27T19:13:01Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:57:31Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。