Fugu-MT 論文翻訳(概要): Evaluation of medium-large Language Models at zero-shot closed book generative question answering

論文の概要: Evaluation of medium-large Language Models at zero-shot closed book generative question answering

arxiv url: http://arxiv.org/abs/2305.11991v2
Date: Mon, 3 Jul 2023 18:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 22:19:32.870473
Title: Evaluation of medium-large Language Models at zero-shot closed book generative question answering
Title（参考訳）: ゼロショットクローズドブック生成質問応答における中大言語モデルの評価
Authors: Ren\'e Peinl and Johannes Wirth
Abstract要約: 本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。本研究は,外部文書検索を行なわずに精巧な回答をモデルに求めるゼロショット生成質問応答を評価する。その結果、最高の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized language models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot generative question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test dataset and presents results from human evaluation. Results show that combining the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 71.8% and has 33B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers. The open source community is quickly closing the gap to the best commercial models.
Abstract（参考訳）: 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。本研究は,ゼロショット生成質問応答に関するMDMを評価し,外部文書検索を行なわずに精巧な回答を提供するモデルを提案する。本論文は、独自のテストデータセットを導入し、人間の評価結果を示す。その結果、異なるMLMからの最良の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。最高のMLMは71.8%を達成し、33Bパラメータを持ち、パラメータの数にのみ依存するのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。オープンソースコミュニティは、最高の商用モデルとのギャップを急速に埋めています。

関連論文リスト

R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文参考訳（メタデータ） (2025-02-18T14:32:44Z)
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。 MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文参考訳（メタデータ） (2025-02-17T15:24:49Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。 DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。 DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文参考訳（メタデータ） (2024-11-27T02:20:44Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。 2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文参考訳（メタデータ） (2024-09-26T14:51:40Z)
MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文参考訳（メタデータ） (2024-06-20T09:27:33Z)
DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。 DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文参考訳（メタデータ） (2024-06-17T17:42:57Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文参考訳（メタデータ） (2024-03-27T17:48:55Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
Self-Refinement of Language Models from External Proxy Metrics Feedback [27.57840561708484]
ProMiSe(Proxy Metric-based Self-Refinement) ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
論文参考訳（メタデータ） (2024-02-27T19:13:01Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。