Fugu-MT 論文翻訳(概要): Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?

論文の概要: Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?

arxiv url: http://arxiv.org/abs/2402.12483v2
Date: Fri, 7 Jun 2024 23:11:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 01:23:27.631455
Title: Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
Title（参考訳）: アーティファクト(Artifacts)とアブダクション(Abduction): LLMは質問なしに複数の質問に答えるにはどうすればよいか?
Authors: Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger,
Abstract要約: 大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
参考スコア（独自算出の注目度）: 15.308093827770474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple-choice question answering (MCQA) is often used to evaluate large language models (LLMs). To see if MCQA assesses LLMs as intended, we probe if LLMs can perform MCQA with choices-only prompts, where models must select the correct answer only from the choices. In three MCQA datasets and four LLMs, this prompt bests a majority baseline in 11/12 cases, with up to 0.33 accuracy gain. To help explain this behavior, we conduct an in-depth, black-box analysis on memorization, choice dynamics, and question inference. Our key findings are threefold. First, we find no evidence that the choices-only accuracy stems from memorization alone. Second, priors over individual choices do not fully explain choices-only accuracy, hinting that LLMs use the group dynamics of choices. Third, LLMs have some ability to infer a relevant question from choices, and surprisingly can sometimes even match the original question. Inferring the original question is an impressive reasoning strategy, but it cannot fully explain the high choices-only accuracy of LLMs in MCQA. Thus, while LLMs are not fully incapable of reasoning in MCQA, we still advocate for the use of stronger baselines in MCQA benchmarks, the design of robust MCQA datasets for fair evaluations, and further efforts to explain LLM decision-making.
Abstract（参考訳）: 大規模言語モデル (LLM) を評価するために、MCQA (Multiple-choice Question answering) がよく用いられる。 MCQA が LLM を意図どおりに評価するかどうかを確認するため、選択のみのプロンプトで LLM が MCQA を実行できるかどうかを探索する。 3つのMCQAデータセットと4つのLCMにおいて、これは11/12ケースで過半数のベースラインを達成し、最大0.33の精度向上を達成している。この振る舞いを説明するために、暗記、選択力学、質問推論について詳細なブラックボックス分析を行う。私たちの重要な発見は3倍です。まず、選択のみの精度が記憶のみに起因するという証拠は見つからない。第二に、個々の選択に対する先行は、選択のみの精度を完全に説明せず、LLMが選択のグループ力学を使用することを示唆している。第三に、LSMは選択から関連する質問を推測する能力があり、驚くべきことに元の質問にマッチすることもある。元の質問を推測することは印象的な推論戦略であるが、MCQAにおけるLLMの高い選択のみの精度を完全に説明できない。したがって、LCMはMCQAの推論が完全にできないわけではないが、MCQAベンチマークにおけるより強力なベースラインの使用、堅牢なMCQAデータセットの設計、LCMの意思決定のさらなる説明が唱えられている。

関連論文リスト

Test-Time Reasoners Are Strategic Multiple-Choice Test-Takers [27.30313753837339]
大規模言語モデル(LLM)は、応答前に推論を与え、MCQA(Multi-choice Question answering)のようなタスクに優れる。しかし、LCMsがMCQAで成功する理由は、選択肢のみという疑問を使わずに見いだすことができる。これらの戦略を研究するために、LLMは完全かつ選択のみの入力でMCQを解く。浅いショートカットによる可能性があるが、選択のみの成功は、推論のトレースの長さによってほとんど影響を受けない。
論文参考訳（メタデータ） (2025-10-09T04:00:09Z)
Self-ensemble: Mitigating Confidence Distortion for Large Language Models [89.03110940871765]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文参考訳（メタデータ） (2025-06-02T17:59:29Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong [2.8367942280334493]
回答に対する自信は、モデルが直接答えるか、答える前に推論を提供するよう求められたかどうかにどのように依存するかを調査する。我々の仮説は、この行動は、選択された答えの確率を変更する推論によるものであるというものである。
論文参考訳（メタデータ） (2025-01-16T10:27:51Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-08-21T12:05:21Z)
Is Your Large Language Model Knowledgeable or a Choices-Only Cheater? [16.384333600053342]
最近の研究は、大きな言語モデル(LLM)が選択のみを使用して複数の選択肢の質問に答えることができることを示している。我々は、MCQAにおける選択のみのショートカットにLLMが過剰に頼っているかどうかを調査するコントラストセットを使用する。コントラストセットを検証した後、12個のLCMをテストし、これらのモデルが質問と選択の両方を与えられた場合、選択のみのショートカットに依存しないことを示した。
論文参考訳（メタデータ） (2024-07-02T07:06:53Z)
Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。 LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文参考訳（メタデータ） (2024-06-11T17:59:47Z)
Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。 GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文参考訳（メタデータ） (2024-05-23T10:00:14Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。 MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-10-22T05:04:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。