Fugu-MT 論文翻訳(概要): Can multiple-choice questions really be useful in detecting the abilities of LLMs?

論文の概要: Can multiple-choice questions really be useful in detecting the abilities of LLMs?

arxiv url: http://arxiv.org/abs/2403.17752v2
Date: Thu, 28 Mar 2024 09:57:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 10:49:40.388722
Title: Can multiple-choice questions really be useful in detecting the abilities of LLMs?
Title（参考訳）: 複数選択質問はLLMの能力を検出するのに本当に役立つのか?
Authors: Wangyue Li, Liangzhi Li, Tong Xiang, Xiao Liu, Wei Deng, Noa Garcia,
Abstract要約: 大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
参考スコア（独自算出の注目度）: 15.756543037102256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM's capabilities, particularly in knowledge-intensive scenarios where long-form generation (LFG) answers are required. The misalignment between the task and the evaluation method demands a thoughtful analysis of MCQ's efficacy, which we undertake in this paper by evaluating nine LLMs on four question-answering (QA) datasets in two languages: Chinese and English. We identify a significant issue: LLMs exhibit an order sensitivity in bilingual MCQs, favoring answers located at specific positions, i.e., the first position. We further quantify the gap between MCQs and long-form generation questions (LFGQs) by comparing their direct outputs, token logits, and embeddings. Our results reveal a relatively low correlation between answers from MCQs and LFGQs for identical questions. Additionally, we propose two methods to quantify the consistency and confidence of LLMs' output, which can be generalized to other QA evaluation benchmarks. Notably, our analysis challenges the idea that the higher the consistency, the greater the accuracy. We also find MCQs to be less reliable than LFGQs in terms of expected calibration error. Finally, the misalignment between MCQs and LFGQs is not only reflected in the evaluation performance but also in the embedding space. Our code and models can be accessed at https://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMs.
Abstract（参考訳）: 複数選択質問(MCQ)は、その単純さと効率性から、大規模言語モデル(LLM)の評価に広く用いられている。しかし、特に長文生成(LFG)の回答を必要とする知識集約的なシナリオにおいて、MCQがLLMの能力を真に測定できるかどうかには懸念がある。課題と評価方法のミスアライメントはMCQの有効性の思慮深い分析を必要とするが,本論文では,中国語と英語の4言語からなる質問応答(QA)データセットに対して,9つのLLMを評価した。 LLMはバイリンガルMCQの順序感受性を示し、特定の位置にある答え、すなわち第1位を優先する。さらに, 直接出力, トークンロジット, 埋め込みを比較することで, MCQとLFGQのギャップを定量化する。その結果,同一質問に対するMCQとLFGQの回答の相関は比較的低いことがわかった。さらに、他のQA評価ベンチマークに一般化可能なLCMの出力の一貫性と信頼性を定量化する2つの方法を提案する。特に、我々の分析は、一貫性が高ければ高いほど精度が上がるという考えに挑戦する。また,キャリブレーション誤差の予測値から,MCQはLFGQよりも信頼性が低いことも確認した。最後に、MCQとLFGQの相違は評価性能だけでなく、埋め込み空間にも反映される。私たちのコードとモデルはhttps://github.com/Meetyou-AI-Lab/Can-MC-Evaluate-LLMsでアクセスできます。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。 LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文参考訳（メタデータ） (2025-07-18T12:28:08Z)
QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks? [17.854829489402324]
現実世界では、大きな言語モデルに対するクエリは、しばしば不特定であり、不足した情報を取得することでのみ解決可能である。クエストベンチ(QuestBench)は、少なくとも1つの質問で解ける未特定な推論タスクの集合である。
論文参考訳（メタデータ） (2025-03-28T17:58:40Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。 LLMの既存の不確実性定量化(UQ)法は、主に応答性よりも即時的であり、高い計算コストを発生させる。応答型UQフレームワークであるCoT-UQを提案する。このフレームワークは,Chain-of-Thought (CoT) を通じて LLM 固有の推論機能を UQ プロセスに統合する。
論文参考訳（メタデータ） (2025-02-24T14:48:06Z)
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。 1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
論文参考訳（メタデータ） (2025-02-19T22:11:52Z)
Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。 LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文参考訳（メタデータ） (2024-11-15T13:12:29Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark [69.3415799675046]
我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。また,CDQA上での中国LLMの評価と分析を行った。
論文参考訳（メタデータ） (2024-02-29T15:22:13Z)
Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? [15.308093827770474]
大規模言語モデル(LLM)が選択のみのプロンプトで複数選択質問応答(MCQA)を実行できるかどうかを探索する。このプロンプトは11/12ケースで過半数のベースラインを上回り、精度は0.33まで向上する。我々は、暗記、選択力学、質問推論について、深いブラックボックス分析を行う。
論文参考訳（メタデータ） (2024-02-19T19:38:58Z)
Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文参考訳（メタデータ） (2024-02-19T08:12:30Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。