論文の概要: WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization
- arxiv url: http://arxiv.org/abs/2503.23779v1
- Date: Mon, 31 Mar 2025 06:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:13.650367
- Title: WinoWhat: A Parallel Corpus of Paraphrased WinoGrande Sentences with Common Sense Categorization
- Title(参考訳): WinoWhat: 共通センス分類を用いたパラレルなWinoGrande文コーパス
- Authors: Ine Gevers, Victor De Marez, Luna De Bruyne, Walter Daelemans,
- Abstract要約: 人気のWinoGrandeベンチマークを用いて,異なるサイズの生成モデルの評価を行った。
新しいコーパスであるWinoWhatをリリースし、WinoGrande検証セットの各インスタンスがパラフレーズ化されます。
- 参考スコア(独自算出の注目度): 2.024032189269359
- License:
- Abstract: In this study, we take a closer look at how Winograd schema challenges can be used to evaluate common sense reasoning in LLMs. Specifically, we evaluate generative models of different sizes on the popular WinoGrande benchmark. We release WinoWhat, a new corpus, in which each instance of the WinoGrande validation set is paraphrased. Additionally, we evaluate the performance on the challenge across five common sense knowledge categories, giving more fine-grained insights on what types of knowledge are more challenging for LLMs. Surprisingly, all models perform significantly worse on WinoWhat, implying that LLM reasoning capabilities are overestimated on WinoGrande. To verify whether this is an effect of benchmark memorization, we match benchmark instances to LLM trainingdata and create two test-suites. We observe that memorization has a minimal effect on model performance on WinoGrande.
- Abstract(参考訳): 本研究では,LLMにおける共通感覚推論を評価するために,Winogradスキーマの課題をどのように活用できるかを詳しく検討する。
具体的には、人気のあるWinoGrandeベンチマークを用いて、異なるサイズの生成モデルを評価する。
新しいコーパスであるWinoWhatをリリースし、WinoGrande検証セットの各インスタンスがパラフレーズ化されます。
さらに,5つの共通感覚知識カテゴリにまたがる課題のパフォーマンスを評価し,LLMにとってどのような知識がより困難なのか,より詳細な知見を提供する。
驚くべきことに、すべてのモデルがWinoWhatで大幅に悪化しており、LLM推論機能がWinoGrandeで過大評価されていることを意味している。
ベンチマーク記憶の効果を検証するため、ベンチマークインスタンスをLLMトレーニングデータと照合し、2つのテストスイートを作成する。
メモリ化がWinoGrandeのモデル性能に与える影響は最小限である。
関連論文リスト
- CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。
我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文 参考訳(メタデータ) (2025-02-16T06:19:37Z) - CARL-GT: Evaluating Causal Reasoning Capabilities of Large Language Models [18.975064947089805]
因果推論能力は、教育や医療といった幅広い応用において、大きな言語モデル(LLM)にとって不可欠である。
グラフとタブラリデータを用いた大規模言語モデルのCAusal Reasoning機能を評価するCARL-GTというベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-23T20:34:32Z) - GAOKAO-Eval: Does high scores truly reflect strong capabilities in LLMs? [32.972545797220924]
大規模言語モデル(LLM)は人為的なベンチマークを用いて一般的に評価される。
GAokaO-Evalは、ハイスコアが人間の手動能力を本当に反映していないことを明らかにした。
論文 参考訳(メタデータ) (2024-12-13T11:38:10Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - WinoWhy: A Deep Diagnosis of Essential Commonsense Knowledge for
Answering Winograd Schema Challenge [55.39835612617972]
ウィノグラードチャレンジ(WSC)に答えるために,本質的なコモンセンス知識の包括的分類を初めて提示する。
それぞれの質問に対して、まずアノテータを招待し、正しい判断をする理由を提供し、次にそれらを6つの主要な知識カテゴリに分類する。
我々はWinoWhyと呼ばれる新しいタスクを開発しています。これは、モデルがすべてのWSC質問に対して非常によく似ているが間違った理由から、もっともらしい理由を区別する必要があります。
論文 参考訳(メタデータ) (2020-05-12T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。