Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models via Random Variables

論文の概要: Benchmarking Large Language Models via Random Variables

arxiv url: http://arxiv.org/abs/2501.11790v1
Date: Mon, 20 Jan 2025 23:41:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.5345
Title: Benchmarking Large Language Models via Random Variables
Title（参考訳）: ランダム変数による大規模言語モデルのベンチマーク
Authors: Zijin Hong, Hao Wu, Su Dong, Junnan Dong, Yilin Xiao, Yujing Zhang, Zhu Wang, Feiran Huang, Linyi Li, Hongxia Yang, Xiao Huang,
Abstract要約: 近年の研究では、現在の数学ベンチマークの信頼性が懸念されている。本稿では,数理推論におけるランダム変数を用いたLLMのベンチマークフレームワークであるRV-Benchを提案する。
参考スコア（独自算出の注目度）: 40.65711363554025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the continuous advancement of large language models (LLMs) in mathematical reasoning, evaluating their performance in this domain has become a prominent research focus. Recent studies have raised concerns about the reliability of current mathematical benchmarks, highlighting issues such as simplistic design and potential data leakage. Therefore, creating a reliable benchmark that effectively evaluates the genuine capabilities of LLMs in mathematical reasoning remains a significant challenge. To address this, we propose RV-Bench, a framework for Benchmarking LLMs via Random Variables in mathematical reasoning. Specifically, the background content of a random variable question (RV question) mirrors the original problem in existing standard benchmarks, but the variable combinations are randomized into different values. LLMs must fully understand the problem-solving process for the original problem to correctly answer RV questions with various combinations of variable values. As a result, the LLM's genuine capability in mathematical reasoning is reflected by its accuracy on RV-Bench. Extensive experiments are conducted with 29 representative LLMs across 900+ RV questions. A leaderboard for RV-Bench ranks the genuine capability of these LLMs. Further analysis of accuracy dropping indicates that current LLMs still struggle with complex mathematical reasoning problems.
Abstract（参考訳）: 数学的推論における大規模言語モデル (LLM) の継続的な進歩により、この領域におけるそれらの性能評価が顕著な研究対象となっている。最近の研究は、現在の数学ベンチマークの信頼性に関する懸念を提起し、単純化設計や潜在的なデータ漏洩などの問題を浮き彫りにした。したがって、数学的推論においてLLMの真の能力を効果的に評価する信頼性の高いベンチマークを作成することは大きな課題である。これを解決するために,数理的推論においてランダム変数を介してLLMをベンチマークするフレームワークであるRV-Benchを提案する。具体的には、乱数変数質問(RVQ)の背景内容は、既存の標準ベンチマークにおける元の問題を反映するが、変数の組み合わせは異なる値にランダム化される。 LLMは、変数値の様々な組み合わせでRV質問に正しく答えるために、元の問題の問題解決プロセスを完全に理解する必要がある。その結果、数学的推論におけるLLMの真の能力は、RV-Bench上での精度によって反映される。 900以上の RV 質問に対して29の代表的な LLM を用いて大規模な実験を行った。 RV-Bench のリーダーボードは、これらの LLM の真の能力をランク付けしている。精度低下のさらなる分析は、現在のLLMが複雑な数学的推論問題に苦戦していることを示している。

関連論文リスト

Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。 AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文参考訳（メタデータ） (2025-10-06T09:30:05Z)
Automatic Robustness Stress Testing of LLMs as Mathematical Problem Solvers [13.40970017743291]
大規模言語モデル(LLM)は、様々な推論集約的なタスクにおいて優れたパフォーマンスを達成している。 LLMはロバスト性の問題に直面する可能性があり、いくつかの単純な推論タスクで予期せず失敗する。本稿では,従来の意味を保ちつつも LLM に失敗する可能性のある数学的問題変種を生成するための新しいフレームワークである Automatic Robustness Checker (AR-Checker) を提案する。
論文参考訳（メタデータ） (2025-06-05T13:42:39Z)
TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。 TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
Generative Evaluation of Complex Reasoning in Large Language Models [39.195491367590485]
大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
論文参考訳（メタデータ） (2025-04-03T17:54:18Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.056519816264505]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文参考訳（メタデータ） (2025-02-14T06:05:12Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。 G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文参考訳（メタデータ） (2024-12-17T18:12:47Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T22:22:09Z)
LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
LLMs May Perform MCQA by Selecting the Least Incorrect Option [29.202758753639078]
大規模言語モデル(LLM)は、様々なタスクにわたるパフォーマンスを著しく向上させた。 LLMを評価するためのベンチマークとして、MCQA(Multiple Choice Question Answering)が採用され、大きな注目を集めている。しかし、この評価手法の堅牢性に関する懸念は続いている。
論文参考訳（メタデータ） (2024-02-02T12:07:00Z)
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。 NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。データポイントを毎月更新する動的更新メカニズムで設計されている。
論文参考訳（メタデータ） (2023-12-22T18:07:44Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。