論文の概要: MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.15468v2
- Date: Fri, 04 Oct 2024 07:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:29.500928
- Title: MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models
- Title(参考訳): MMLU-SR:大規模言語モデルのストレステスト推論能力ベンチマーク
- Authors: Wentian Wang, Sarthak Jain, Paul Kantor, Jacob Feldman, Lazaros Gallos, Hao Wang,
- Abstract要約: 大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。
我々は、キーワードをダミー語に置き換え、その定義に従って標準化されたテスト質問を修正した。
このような置換後のモデル性能は大幅に低下し,理解力の低下が示唆された。
- 参考スコア(独自算出の注目度): 8.7734602595507
- License:
- Abstract: We propose MMLU-SR, a novel dataset designed to measure the true comprehension abilities of Large Language Models (LLMs) by challenging their performance in question-answering tasks with modified terms. We reasoned that an agent that "truly" understands a concept can still evaluate it when key terms are replaced by suitably defined alternate terms, and sought to differentiate such comprehension from mere text replacement. In our study, we modified standardized test questions by replacing a key term with a dummy word along with its definition. The key term could be in the context of questions, answers, or both questions and answers. Notwithstanding the high scores achieved by recent popular LLMs on the MMLU leaderboard, we found a substantial reduction in model performance after such replacement, suggesting poor comprehension. This new benchmark provides a rigorous benchmark for testing true model comprehension, and poses a challenge to the broader scientific community.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。
概念を「真に」理解しているエージェントは、キー用語を適切な定義の代替用語に置き換えた場合でも、その概念を評価することができ、そのような理解を単なるテキスト置換と区別しようと試みた。
そこで本研究では,キーワードをダミー語に置き換えることにより,標準化されたテスト問題を修正した。
重要な用語は、質問、回答、あるいは質問と回答の両方の文脈にあるかもしれない。
MMLUのリーダーボード上での最近のLLMの高得点にもかかわらず, モデル性能の大幅な低下が見られ, 理解に乏しいことが示唆された。
この新しいベンチマークは、真のモデルの理解をテストするための厳密なベンチマークを提供する。
関連論文リスト
- OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Predicting Question-Answering Performance of Large Language Models
through Semantic Consistency [5.857193811761703]
本研究では,大規模言語モデルの質問応答のセマンティック一貫性を評価するタスクに対処する。
事実質問のための高品質なパラフレーズ付きベンチマークデータセットを作成し、そのデータセットをコミュニティにリリースする。
実際のQA参照レスパフォーマンス予測のためのフレームワークを構築し,評価する。
論文 参考訳(メタデータ) (2023-11-02T11:27:21Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。
我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。
我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T15:59:54Z) - WinoDict: Probing language models for in-context word acquisition [32.81587292382359]
推論中に新しい単語を学習するLarge Language Models(LLM)の能力を測定するために,新しい文脈内学習パラダイムを導入する。
ベンチマークの結果,元のWinogradタスクと比較してLLMの精度が大幅に低下していることが判明した。
論文 参考訳(メタデータ) (2022-09-25T05:30:13Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。