論文の概要: Plausibly Problematic Questions in Multiple-Choice Benchmarks for Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2410.10854v1
- Date: Sun, 06 Oct 2024 19:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:08.405254
- Title: Plausibly Problematic Questions in Multiple-Choice Benchmarks for Commonsense Reasoning
- Title(参考訳): Commonsense Reasoning のためのマルチコースベンチマークにおける難解な質問
- Authors: Shramay Palta, Nishant Balepur, Peter Rankel, Sarah Wiegreffe, Marine Carpuat, Rachel Rudinger,
- Abstract要約: 常識推論のための多重選択質問(MCQ)ベンチマークは、1つの正しい答えの難しい選択を必要とする。
サンプリングされたMCQの20%以上において、最も高い評価を得た回答選択は、ベンチマークゴールドの回答と一致しないことが判明した。
- 参考スコア(独自算出の注目度): 26.20942060088924
- License:
- Abstract: Questions involving commonsense reasoning about everyday situations often admit many $\textit{possible}$ or $\textit{plausible}$ answers. In contrast, multiple-choice question (MCQ) benchmarks for commonsense reasoning require a hard selection of a single correct answer, which, in principle, should represent the $\textit{most}$ plausible answer choice. On $250$ MCQ items sampled from two commonsense reasoning benchmarks, we collect $5,000$ independent plausibility judgments on answer choices. We find that for over 20% of the sampled MCQs, the answer choice rated most plausible does not match the benchmark gold answers; upon manual inspection, we confirm that this subset exhibits higher rates of problems like ambiguity or semantic mismatch between question and answer choices. Experiments with LLMs reveal low accuracy and high variation in performance on the subset, suggesting our plausibility criterion may be helpful in identifying more reliable benchmark items for commonsense evaluation.
- Abstract(参考訳): 日常の状況に関する常識推論を含む質問は、多くの$\textit{possible}$または$\textit{plausible}$の回答を許容することが多い。
対照的に、コモンセンス推論のための多重選択質問(MCQ)ベンチマークでは、1つの正解のハードセレクションが必要であり、これは原則として$\textit{most}$ 可算解解の選択を表すべきである。
2つのコモンセンス推論ベンチマークからサンプリングされた250ドルのMCQ項目に対して、解答の選択について5000ドルの独立した妥当性判断を収集する。
サンプルMCQの20%以上において、最も信頼性の高い回答選択は、ベンチマークゴールドの回答と一致せず、手動検査により、このサブセットは、あいまいさや質問と回答の選択間の意味的ミスマッチのような問題の割合が高いことが確認された。
LLMを用いた実験では、サブセットの性能の低い精度と高いばらつきが示され、我々の妥当性基準がコモンセンス評価のためのより信頼性の高いベンチマーク項目の同定に有用である可能性が示唆された。
関連論文リスト
- Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Assessing Distractors in Multiple-Choice Tests [10.179963650540056]
複数項目の読解テストにおいて, 気晴らしの質を測る指標を提案する。
具体的には,不正確さ,妥当性,不適切な選択肢の多様性の観点から,品質を定義します。
論文 参考訳(メタデータ) (2023-11-08T09:37:09Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Match$^2$: A Matching over Matching Model for Similar Question
Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。
類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。
自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。
従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文 参考訳(メタデータ) (2020-06-21T05:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。