Fugu-MT 論文翻訳(概要): Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It

論文の概要: Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It

arxiv url: http://arxiv.org/abs/2506.23864v1
Date: Mon, 30 Jun 2025 13:57:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:54.089351
Title: Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It
Title（参考訳）: ガベージインと推論?なぜベンチマークスコアは信頼できないのか、どうすべきか
Authors: Seyed Mahed Mousavi, Edoardo Cecchinato, Lucia Hornikova, Giuseppe Riccardi,
Abstract要約: 我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
参考スコア（独自算出の注目度）: 1.6261897792391753
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We conduct a systematic audit of three widely used reasoning benchmarks, SocialIQa, FauxPas-EAI, and ToMi, and uncover pervasive flaws in both benchmark items and evaluation methodology. Using five LLMs (GPT-{3, 3.5, 4, o1}, and LLaMA 3.1) as diagnostic tools, we identify structural, semantic, and pragmatic issues in benchmark design (e.g., duplicated items, ambiguous wording, and implausible answers), as well as scoring procedures that prioritize output form over reasoning process. Through systematic human annotation and re-evaluation on cleaned benchmark subsets, we find that model scores often improve not due to due to erratic surface wording variations and not to improved reasoning. Infact, further analyses show that model performance is highly sensitive to minor input variations such as context availability and phrasing, revealing that high scores may reflect alignment with format-specific cues rather than consistent inference based on the input. These findings challenge the validity of current benchmark-based claims about reasoning in LLMs, and highlight the need for evaluation protocols that assess reasoning as a process of drawing inference from available information, rather than as static output selection. We release audited data and evaluation tools to support more interpretable and diagnostic assessments of model reasoning.
Abstract（参考訳）: 我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使用されている推論ベンチマークの体系的な監査を行い、ベンチマーク項目と評価手法の両方における広範囲な欠陥を明らかにする。 5つのLCM(GPT-{3, 3.5, 4, o1}, LLaMA 3.1)を診断ツールとして用い, ベンチマーク設計における構造的, 意味的, 実用的問題(重複項目, 曖昧な単語化, 不可解な回答)を同定し, 推論処理よりも出力形式を優先する評価手順を示す。人為的アノテーションとクリーン化されたベンチマークサブセットの再評価により、不規則な表面の単語のバリエーションのためではなく、推論の改善によるモデルスコアが改善されることがしばしば見いだされる。さらに分析したところ、モデルの性能は文脈の可用性やフレーズの表現のような小さな入力のバリエーションに非常に敏感であることを示し、高いスコアは入力に基づいて一貫した推論ではなく、フォーマット固有のキューとのアライメントを反映していることが判明した。これらの結果は、LCMにおける推論に関する現在のベンチマークベースの主張の有効性に疑問を投げかけ、静的な出力選択ではなく、利用可能な情報から推論を引き出すプロセスとして推論を評価するための評価プロトコルの必要性を強調している。我々は,モデル推論の解釈と診断を支援するための監査データと評価ツールをリリースする。

関連論文リスト

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。