論文の概要: SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
- arxiv url: http://arxiv.org/abs/2506.00643v1
- Date: Sat, 31 May 2025 17:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.38513
- Title: SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions
- Title(参考訳): SATA-BENCH:複数の質問にベンチマークを適用する
- Authors: Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan Reddy,
- Abstract要約: 大規模言語モデル(LLM)は、単一回答の複数選択タスクでますます評価される。
多くの実世界の問題は、選択肢の集合から正しい答えを識別する必要がある。
SATA-BENCHは、Select All That Apply 質問における LLM の評価のための最初の専用ベンチマークである。
- 参考スコア(独自算出の注目度): 1.9579435582874047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly evaluated on single-answer multiple-choice tasks, yet many real-world problems require identifying all correct answers from a set of options. This capability remains underexplored. We introduce SATA-BENCH, the first dedicated benchmark for evaluating LLMs on Select All That Apply (SATA) questions across diverse domains, including reading comprehension, law, and biomedicine. Our evaluation of 27 open-source and proprietary models reveals a significant gap: even the strongest model achieves only 41.8% exact match, exposing LLMs' inability to reliably identify all correct answers. We find that this weakness stems from two core challenges: selection bias - models favor certain choices regardless of content, and count bias - models fail to predict the correct number of answers. To address these issues, we propose Choice Funnel, a decoding strategy that combines token debiasing with adaptive thresholding to guide models toward complete and accurate selections. Choice Funnel achieves up to 29% higher exact match than competitive baselines while reducing inference cost by over 64%. Our findings expose fundamental limitations in current LLMs and introduce a new framework for diagnosing and improving multi-answer reasoning. We release SATA-BENCH and Choice Funnel to promote LLM development for robust decision-making in realistic, multi-answer applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単一回答の複数選択タスクでますます評価されているが、現実の多くの問題は、選択肢の集合から正しい答えを識別する必要がある。
この能力はいまだ解明されていない。
SATA-BENCHは,Select All That Apply (SATA) 質問に対する LLM の評価を行うための,最初の専用ベンチマークである。
最強のモデルでさえ41.8%の正確な一致を達成し、LLMがすべての正しい答えを確実に識別できないことを露呈する。
この弱点は、選択バイアス(選択バイアス) - コンテンツに関係なく特定の選択を好むモデル、バイアスを数えるモデル - モデルが正しい回答数を予測するのに失敗する、という2つの中核的な課題に起因している。
これらの問題に対処するために、トークンのデバイアスと適応しきい値を組み合わせた復号戦略であるChoice Funnelを提案する。
Choice Funnelは、競合するベースラインよりも最大29%正確なマッチを達成すると同時に、推論コストを64%以上削減する。
本研究は,LLMの基本的限界を明らかにするとともに,複数問合せ推論の診断・改善のための新しい枠組みを導入する。
我々はSATA-BENCHとChoice Funnelをリリースし、現実的な複数問合せアプリケーションにおける堅牢な意思決定のためにLLM開発を促進する。
関連論文リスト
- Self-ensemble: Mitigating Confidence Distortion for Large Language Models [89.03110940871765]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。
この問題を解決するために自己組織化を提案する。
3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文 参考訳(メタデータ) (2025-06-02T17:59:29Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。