論文の概要: Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions
Without the Question?
- arxiv url: http://arxiv.org/abs/2402.12483v1
- Date: Mon, 19 Feb 2024 19:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:23:42.093069
- Title: Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions
Without the Question?
- Title(参考訳): アーティファクトとアブダクション:LLMは質問なしに複数の質問に答えるにはどうすればよいか?
- Authors: Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger
- Abstract要約: 大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
選択のみの精度が記憶のみに起因するという証拠は見つからない。
LLMには、選択した質問から関連する質問を推測する能力がある。
- 参考スコア(独自算出の注目度): 16.72299278087684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice question answering (MCQA) is often used to evaluate large
language models (LLMs). To see if MCQA assesses LLMs as intended, we probe if
LLMs can perform MCQA with choices-only prompts, where models must select the
correct answer only from the choices. In three MCQA datasets and four LLMs,
this prompt bests a majority baseline in 11/12 cases, with up to 0.33 accuracy
gain. To help explain this behavior, we conduct an in-depth, black-box analysis
on memorization, choice dynamics, and question inference. Our key findings are
threefold. First, we find no evidence that the choices-only accuracy stems from
memorization alone. Second, priors over individual choices do not fully explain
choices-only accuracy, hinting that LLMs use the group dynamics of choices.
Third, LLMs have some ability to infer a relevant question from choices, and
surprisingly can sometimes even match the original question. We hope to
motivate the use of stronger baselines in MCQA benchmarks, the design of robust
MCQA datasets, and further efforts to explain LLM decision-making.
- Abstract(参考訳): 大規模言語モデル(llm)の評価には、mcqa(multiple-choice question answering)がしばしば用いられる。
MCQA が LLM を意図通りに評価するかどうかを確認するため,選択のみのプロンプトで LLM が MCQA を実行できるかどうかを探索する。
3つのmcqaデータセットと4つのllmにおいて、これは11/12のケースでマジョリティベースラインを上回り、最大 0.33 の精度向上をもたらす。
この振る舞いを説明するのに役立ち、暗記、選択ダイナミクス、質問推論に関する詳細なブラックボックス分析を行います。
私たちの重要な発見は3倍です。
まず、選択のみの精度が記憶のみに起因するという証拠は見つからない。
第二に、個々の選択に対する事前は選択のみの精度を完全に説明せず、LLMが選択のグループ力学を使用することを示唆している。
第三に、LSMは選択から関連する質問を推測する能力があり、驚くべきことに元の質問にマッチすることもある。
我々は、MCQAベンチマークにおけるより強力なベースラインの使用、堅牢なMCQAデータセットの設計、LCM意思決定の説明へのさらなる取り組みを動機付けたい。
関連論文リスト
- Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Enhancing Answer Selection in Community Question Answering with
Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。
次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。
実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-29T10:24:50Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [84.1784903043884]
Open-Domain Question Answering (ODQA) は、背景文書を明示的に提供せずにファクトイドの質問に答えることを目的としている。
ゼロショット設定では、Retriever-Readersのようなカスタマイズされたモデルをトレーニングするデータがないため、このタスクはより難しい。
本稿では,大規模言語モデルのパラメータに格納された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z) - Unsupervised Multiple Choices Question Answering: Start Learning from
Basic Knowledge [75.7135212362517]
我々は、ほとんど教師なしの多重選択質問回答(MCQA)の可能性について検討する。
提案手法は RACE のベースラインアプローチよりも優れており,MC500 の教師あり学習手法と同等である。
論文 参考訳(メタデータ) (2020-10-21T13:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。