論文の概要: Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?
- arxiv url: http://arxiv.org/abs/2407.01992v1
- Date: Tue, 2 Jul 2024 07:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:34:10.827387
- Title: Is Your Large Language Model Knowledgeable or a Choices-Only Cheater?
- Title(参考訳): 大規模言語モデルは知識があるのか、それともチョイスのみのチーターなのか?
- Authors: Nishant Balepur, Rachel Rudinger,
- Abstract要約: 最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢の質問に答えることができることを示している。
我々は、MCQAにおける選択のみのショートカットにLLMが過剰に頼っているかどうかを調査するコントラストセットを使用する。
コントラストセットを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。
- 参考スコア(独自算出の注目度): 16.384333600053342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that large language models (LLMs) can answer multiple-choice questions using only the choices, but does this mean that MCQA leaderboard rankings of LLMs are largely influenced by abilities in choices-only settings? To answer this, we use a contrast set that probes if LLMs over-rely on choices-only shortcuts in MCQA. While previous works build contrast sets via expensive human annotations or model-generated data which can be biased, we employ graph mining to extract contrast sets from existing MCQA datasets. We use our method on UnifiedQA, a group of six commonsense reasoning datasets with high choices-only accuracy, to build an 820-question contrast set. After validating our contrast set, we test 12 LLMs, finding that these models do not exhibit reliance on choice-only shortcuts when given both the question and choices. Thus, despite the susceptibility~of MCQA to high choices-only accuracy, we argue that LLMs are not obtaining high ranks on MCQA leaderboards just due to their ability to exploit choices-only shortcuts.
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢に答えることができることを示しているが、これはMCQAのLLMのリーダーボードランキングが選択のみの設定における能力に大きく影響していることを意味するのだろうか?
これに対応するために、MCQAにおける選択のみのショートカットにLLMが過度に頼っているかどうかを探索するコントラストセットを用いる。
従来の研究では、高価なアノテーションやモデル生成データを使ってコントラストセットを構築していたが、既存のMCQAデータセットからコントラストセットを抽出するためにグラフマイニングを採用している。
提案手法は,選択のみの精度の高い6つのコモンセンス推論データセット群であるUnifiedQAを用いて,820のコントラストセットを構築する。
コントラストを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。
したがって、選択のみの精度に対するMCQAの感受性は高いが、選択のみのショートカットを活用できるため、LCMはMCQAのリーダーボード上で高いランクを得ていない。
関連論文リスト
- Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA [19.78468832417275]
モデルの基礎となる知識を捕捉し、明らかにする新しいスコアを導入します。
これらの結果から,LLaMA2-7Bでは知識抽出が最大16%向上した。
モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ60%向上する。
論文 参考訳(メタデータ) (2024-10-03T09:53:48Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文 参考訳(メタデータ) (2024-02-19T19:38:58Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z) - Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut
Learning in VQA [53.45074798673808]
VQAモデルは、意図されたソリューションではなく、データセットバイアスによって形成されるショートカットソリューションを学ぶ傾向がある。
複数のOODテストセットに異なる分布シフトを構築することで、様々な種類のショートカットを考慮に入れた新しいデータセットを提案する。
私たちのベンチマークでは、VQAでのショートカット学習をより厳密で包括的なテストベッドを提供しています。
論文 参考訳(メタデータ) (2022-10-10T13:39:08Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。