論文の概要: Test-Time Reasoners Are Strategic Multiple-Choice Test-Takers
- arxiv url: http://arxiv.org/abs/2510.07761v1
- Date: Thu, 09 Oct 2025 04:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.857405
- Title: Test-Time Reasoners Are Strategic Multiple-Choice Test-Takers
- Title(参考訳): テストタイムリゾネータは、戦略的なマルチコーステストテッカー
- Authors: Nishant Balepur, Atrey Desai, Rachel Rudinger,
- Abstract要約: 大規模言語モデル(LLM)は、応答前に推論を与え、MCQA(Multi-choice Question answering)のようなタスクに優れる。
しかし、LCMsがMCQAで成功する理由は、選択肢のみという疑問を使わずに見いだすことができる。
これらの戦略を研究するために、LLMは完全かつ選択のみの入力でMCQを解く。
浅いショートカットによる可能性があるが、選択のみの成功は、推論のトレースの長さによってほとんど影響を受けない。
- 参考スコア(独自算出の注目度): 27.30313753837339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now give reasoning before answering, excelling in tasks like multiple-choice question answering (MCQA). Yet, a concern is that LLMs do not solve MCQs as intended, as work finds LLMs sans reasoning succeed in MCQA without using the question, i.e., choices-only. Such partial-input success is often deemed problematic, but reasoning traces could reveal if these strategies are truly shallow in choices-only settings. To study these strategies, reasoning LLMs solve MCQs in full and choices-only inputs; test-time reasoning often boosts accuracy on full and in choices-only half the time. While possibly due to shallow shortcuts, choices-only success is barely affected by the length of reasoning traces, and after finding traces pass faithfulness tests, we show they use less problematic strategies like inferring missing questions. In all, we challenge claims that partial-input success is always a flaw, so we discuss how reasoning traces could separate problematic data from less problematic reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、回答の前に推論を与え、MCQA(Multi-choice question answering)のようなタスクに優れる。
しかし、LCMはMCQを意図した方法では解決しない、という懸念がある。
このような部分的なインプットの成功は問題視されることが多いが、これらの戦略が選択のみの設定において本当に浅ければ、推論の痕跡が明らかになる可能性がある。
これらの戦略を研究するために、LLMは完全かつ選択のみの入力でMCQを解く。
おそらく、浅いショートカットによるものであるが、選択のみの成功は、推論トレースの長さによってほとんど影響を受けず、トレースが忠実性テストに合格した後、欠落した質問を推測するなど、問題のない戦略を採用することを示す。
全体としては、部分的なインプットの成功は常に欠陥である、という主張に挑戦するため、推論トレースが問題のない推論から問題のあるデータを分離する方法について論じる。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
我々は,人間のテストに基づく生成形式を提唱し,LCMが回答を構築・説明し,ユーザニーズや知識をよりよく把握し,評価しやすくする。
論文 参考訳(メタデータ) (2025-02-19T22:11:52Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。
このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。
我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文 参考訳(メタデータ) (2024-02-19T19:38:58Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。