論文の概要: Reasoning Models are Test Exploiters: Rethinking Multiple-Choice
- arxiv url: http://arxiv.org/abs/2507.15337v1
- Date: Mon, 21 Jul 2025 07:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.305053
- Title: Reasoning Models are Test Exploiters: Rethinking Multiple-Choice
- Title(参考訳): Reasoning Models: テストエクスプロイタ
- Authors: Narun Raman, Taylor Lundy, Kevin Leyton-Brown,
- Abstract要約: 大きな言語モデル (LLMs) は、質問応答ドメインの固定された選択セットの中から選択するよう求められます。
McQCA(Multi-choice Question-Awering)は、チェーン・オブ・シークレット・推論の実行が許される限り、モデルの下流のパフォーマンスのよいプロキシである。
我々は、MCQAはもはや最先端モデルの下流性能を評価するための良いプロキシではないと結論付けている。
- 参考スコア(独自算出の注目度): 10.085788712670487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When evaluating Large Language Models (LLMs) in question-answering domains, it is common to ask the model to choose among a fixed set of choices (so-called multiple-choice question-answering, or MCQA). Although downstream tasks of interest typically do not provide systems with explicit options among which to choose, this approach is nevertheless widely used because it makes it makes automatic grading straightforward and has tended to produce challenging benchmarks that correlate sufficiently well with downstream performance. This paper investigates the extent to which this trend continues to hold for state-of-the-art reasoning models, describing a systematic evaluation of $15$ different question-answering benchmarks (e.g., MMLU, HLE) and $25$ different LLMs (including small models such as Qwen 7B and relatively large models such as Llama 70B). For each model-benchmark pair, we considered $5$ ways of presenting the model with questions, including variations on whether multiple choices were offered to the model at all; whether "none of the above" sometimes replaced the right answer; and whether the model was permitted to perform chain-of-thought reasoning before and/or after the choices were presented. MCQA remained a good proxy for the downstream performance of models as long as they were allowed to perform chain-of-thought reasoning only before being presented with the options among which they had to select. On the other hand, large models that were able to perform reasoning after being given a set of options tended to significantly outperform their free-text performance due to exploiting the information in the options. We conclude that MCQA is no longer a good proxy for assessing downstream performance of state-of-the-art models, and offer practical guidelines for designing more robust, bias-resistant benchmarks that better reflect LLMs' genuine reasoning capabilities.
- Abstract(参考訳): 質問応答領域におけるLarge Language Models (LLMs) の評価では、モデルに一定の選択(いわゆるMultiple-choice Question-Awering, MCQA)を選択することが一般的である。
ダウンストリームタスクは、通常、選択するオプションを明示するシステムを提供しないが、このアプローチは、自動グレーディングを簡単にし、ダウンストリームのパフォーマンスと十分に相関する挑戦的なベンチマークを生成する傾向があるため、広く使われている。
本稿では,この傾向が最先端の推論モデルに対して持続する範囲について検討し,Qwen 7Bなどの小型モデルやLlama 70Bのような比較的大きなモデルを含む15ドルの質問応答ベンチマーク(例えばMMLU, HLE)と25ドルのLLMの体系的評価について述べる。
それぞれのモデルベンチマークペアに対して,モデルに複数の選択肢が提示されたかどうか,モデルが正しい回答に取って代わられたかどうか,選択が提示された前後でチェーン・オブ・シークレット・推論を行うことが許されたかどうか,など,モデルに疑問を呈する5ドルの方法を検討した。
MCQAは、選択すべき選択肢が提示される前にのみ、チェーン・オブ・シークレットの推論を実行することができる限り、モデルの下流のパフォーマンスのよいプロキシであり続けた。
一方、一組のオプションが与えられた後、推論を行うことが可能な大規模モデルは、オプションの情報を活用することにより、自由テキストのパフォーマンスを著しく上回る傾向にあった。
我々は、MCQAはもはや最先端モデルの下流性能を評価するための良いプロキシではなく、LCMの真の推論能力を反映したより堅牢でバイアス耐性のあるベンチマークを設計するための実践的なガイドラインを提供すると結論付けている。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - A Study on Large Language Models' Limitations in Multiple-Choice Question Answering [0.0]
26の小さなオープンソースモデルを分析し、その65%がタスクを理解していないことを発見した。
与えられた選択から解を適切に選ぶのは4つのモデルのみであり、これらのモデルのうち選択順序に依存しないのは5つのモデルのみである。
論文 参考訳(メタデータ) (2024-01-15T20:42:16Z) - Causal Q-Aggregation for CATE Model Selection [20.39573621844382]
二重ロバストな損失を用いたQaggregationに基づく新しいCATEアンサンブル手法を提案する。
本研究の主な成果は,因果的Q集合が統計的に最適なモデル選択後悔率を達成することである。
論文 参考訳(メタデータ) (2023-10-25T19:27:05Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。