Fugu-MT 論文翻訳(概要): Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models

論文の概要: Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models

arxiv url: http://arxiv.org/abs/2402.01349v1
Date: Fri, 2 Feb 2024 12:07:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 15:40:13.248578
Title: Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models
Title（参考訳）: 回答を超えて:大規模言語モデルの評価のための多重選択質問応答の合理性の検討
Authors: Haochun Wang, Sendong Zhao, Zewen Qiang, Bing Qin, Ting Liu
Abstract要約: 本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
参考スコア（独自算出の注目度）: 30.674058754196462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of natural language processing (NLP), Large Language Models (LLMs) have precipitated a paradigm shift, markedly enhancing performance in natural language generation tasks. Despite these advancements, the comprehensive evaluation of LLMs remains an inevitable challenge for the community. Recently, the utilization of Multiple Choice Question Answering (MCQA) as a benchmark for LLMs has gained considerable traction. This study investigates the rationality of MCQA as an evaluation method for LLMs. If LLMs genuinely understand the semantics of questions, their performance should exhibit consistency across the varied configurations derived from the same questions. Contrary to this expectation, our empirical findings suggest a notable disparity in the consistency of LLM responses, which we define as REsponse VAriability Syndrome (REVAS) of the LLMs, indicating that current MCQA-based benchmarks may not adequately capture the true capabilities of LLMs, which underscores the need for more robust evaluation mechanisms in assessing the performance of LLMs.
Abstract（参考訳）: 自然言語処理(NLP)の分野では、Large Language Models(LLM)がパラダイムシフトを引き起こし、自然言語生成タスクのパフォーマンスが著しく向上した。これらの進歩にもかかわらず、LLMの包括的な評価はコミュニティにとって必然的な課題である。近年,LLMのベンチマークとしてMultiple Choice Question Answering (MCQA) が注目されている。本研究では,LCMの評価手法としてMCQAの合理性を検討する。 LLMが真に質問の意味を理解しているなら、それらの性能は同じ質問から派生した様々な構成に対して一貫性を示すべきである。この期待とは対照的に,我々の経験的結果は,LLMの応答の整合性に顕著な相違があることを示唆しており,このことから,現在のMCQAベースのベンチマークでは,LCMの性能を評価する上でより堅牢な評価機構の必要性が浮き彫りにされている。

関連論文リスト

LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文参考訳（メタデータ） (2025-07-30T03:50:46Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Training-free LLM Verification via Recycling Few-shot Examples [8.919343613551183]
LLM出力の検証にFew-shot例をリサイクルする新しいフレームワークを提案する(Referi)。私たちのキーとなるアイデアは、与えられた少数ショットの例を付加して、ターゲットクエリの候補出力を評価することです。 Referiはベイズのルールからモチベーションを得た2つの異なるスコアを組み合わせて生成した出力を評価し、その後、自信を持って決定され、文脈的に一貫性のある候補を選択する。
論文参考訳（メタデータ） (2025-06-08T10:02:07Z)
Self-ensemble: Mitigating Confidence Distortion for Large Language Models [89.03110940871765]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文参考訳（メタデータ） (2025-06-02T17:59:29Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
OptLLM: Optimal Assignment of Queries to Large Language Models [12.07164196530872]
大規模言語モデル(LLM)における費用効率の高いクエリ割り当て問題に対処するフレームワークを提案する。当社のフレームワークであるOpsLLMは、ユーザに対して、予算の制約やパフォーマンスの優先事項に合わせて、選択可能なさまざまな最適なソリューションを提供します。 OptLLMの有効性を評価するため,テキスト分類,質問応答,感情分析,推論,ログ解析など,さまざまなタスクについて広範な実験を行った。
論文参考訳（メタデータ） (2024-05-24T01:05:37Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文参考訳（メタデータ） (2024-02-19T08:12:30Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Zero-Shot Question Answering over Financial Documents using Large Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。 LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文参考訳（メタデータ） (2023-11-19T16:23:34Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。