論文の概要: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- arxiv url: http://arxiv.org/abs/2305.11991v1
- Date: Fri, 19 May 2023 20:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 01:38:40.652715
- Title: Evaluation of medium-large Language Models at zero-shot closed book
generative question answering
- Title(参考訳): ゼロショットクローズドブック生成質問応答における中大言語モデルの評価
- Authors: Ren\'e Peinl and Johannes Wirth
- Abstract要約: 論文は、少なくとも60億のパラメータを持つが1000億未満と定義されている中型ランゲージモデル(MLM)に焦点を当てている。
本研究は,外部文書検索を行なわずに詳細な回答をモデルに求めるゼロショット質問応答について評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have garnered significant attention, but the
definition of "large" lacks clarity. This paper focuses on medium-sized
lan-guage models (MLMs), defined as having at least six billion parameters but
less than 100 billion. The study evaluates MLMs regarding zero-shot genera-tive
question answering, which requires models to provide elaborate answers without
external document retrieval. The paper introduces an own test da-taset and
presents results from human evaluation. Results show that combin-ing the best
answers from different MLMs yielded an overall correct answer rate of 82.7%
which is better than the 60.9% of ChatGPT. The best MLM achieved 46.4% and has
7B parameters, which highlights the importance of using appropriate training
data for fine-tuning rather than solely relying on the number of parameters.
More fine-grained feedback should be used to further improve the quality of
answers.
- Abstract(参考訳): 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。
本稿では,少なくとも60億のパラメータを持つが1000億未満のパラメータを持つ中型ランゲージモデル(MLM)に焦点を当てる。
本研究は,外部文書検索を行なわずに精巧な回答を提供するモデルであるゼロショットジェネレーティブ質問応答に関するMDMを評価した。
本稿では,テストダタセットを独自に導入し,人的評価の結果を示す。
その結果、異なるMLMから最高の回答を合成すると、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
最高のmlmは46.4%に達し、7bのパラメータを持ち、パラメータ数のみに頼るのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。
よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。
関連論文リスト
- None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文 参考訳(メタデータ) (2025-02-17T15:24:49Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文 参考訳(メタデータ) (2024-11-27T02:20:44Z) - ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Self-Refinement of Language Models from External Proxy Metrics Feedback [27.57840561708484]
ProMiSe(Proxy Metric-based Self-Refinement)
ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。
オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
論文 参考訳(メタデータ) (2024-02-27T19:13:01Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。