論文の概要: Pushing the Boundaries of Multiple Choice Evaluation to One Hundred Options
- arxiv url: http://arxiv.org/abs/2604.14634v1
- Date: Thu, 16 Apr 2026 05:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.73925
- Title: Pushing the Boundaries of Multiple Choice Evaluation to One Hundred Options
- Title(参考訳): 複数の選択評価の境界を100の選択肢に押し上げる
- Authors: Nahyun Lee, Guijin Son,
- Abstract要約: 本稿では,候補セットを100まで拡張する大規模オプション評価プロトコルを提案する。
この枠組みを韓国の正書法誤り検出タスクに適用する。
その結果、低いオプション設定での強いパフォーマンスは、モデルの能力を誇張できることが示された。
- 参考スコア(独自算出の注目度): 4.902225285395898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple choice evaluation is widely used for benchmarking large language models, yet near ceiling accuracy in low option settings can be sustained by shortcut strategies that obscure true competence. Therefore, we propose a massive option evaluation protocol that scales the candidate set to one hundred options and sharply reduces the impact of chance performance. We apply this framework to a Korean orthography error detection task where models must pick the single incorrect sentence from a large candidate set. With fixed targets and repeated resampling and shuffling, we obtain stable estimates while separating content driven failures from positional artifacts. Across experiments, results indicate that strong performance in low option settings can overstate model competence. This apparent advantage often weakens under dense interference at high $N$, revealing gaps that conventional benchmarks tend to obscure. We identify two failure modes, semantic confusion and position bias toward early options under uncertainty. To isolate the effect of context length, we run padding controlled and length matched tests, which suggest that the main bottleneck is candidate ranking rather than context length. Together, these findings support massive option evaluation as a general framework for stress testing model reliability under extreme distractor density, beyond what low option benchmarks can reveal.
- Abstract(参考訳): 複数選択評価は大規模言語モデルのベンチマークに広く用いられているが、低オプション設定における天井付近の精度は、真の能力が不明なショートカット戦略によって維持できる。
そこで本研究では,候補セットを100に拡張し,確率性能への影響を著しく低減する大規模オプション評価プロトコルを提案する。
この枠組みを韓国の正書法エラー検出タスクに適用し,大容量の候補集合から1つの誤り文を選択する。
固定目標と繰り返し再サンプリングとシャッフルにより,コンテンツ駆動型障害を位置的成果物から分離しながら,安定した推定値を得る。
実験全体では、低いオプション設定での強い性能はモデルの能力を誇張できることを示している。
この明らかな優位性は、高N$での高密度な干渉の下でしばしば弱まり、従来のベンチマークが曖昧になるようなギャップが明らかになる。
不確実性の下で、初期オプションに対する意味的混乱と位置バイアスの2つの障害モードを特定します。
コンテクスト長の影響を分離するために, パディング制御および長さマッチングテストを実施し, 主なボトルネックは, コンテクスト長ではなく候補ランキングであることを示す。
これらの知見は、過度なイントラクタ密度下でのストレステストモデルの信頼性に関する一般的なフレームワークとして、オプションの低いベンチマークが明らかにできる範囲を超えて、大規模なオプション評価をサポートする。
関連論文リスト
- Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models [86.8650252164764]
大規模言語モデル(LLM)は、事実的に誤った出力を生成する傾向にある。
本研究では,LLMへのコンフォメーションスコア変換法を拡張する適応型コンフォメーション予測手法を提案する。
これにより、アクシデントに依存したキャリブレーションが可能となり、条件付きカバレッジを改善しながら、限界範囲のカバレッジ保証が維持される。
論文 参考訳(メタデータ) (2026-04-15T15:35:42Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Holistic Approach to Measure Sample-level Adversarial Vulnerability and
its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。
本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。
サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文 参考訳(メタデータ) (2022-05-05T12:36:17Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。