Fugu-MT 論文翻訳(概要): ARB: Advanced Reasoning Benchmark for Large Language Models

論文の概要: ARB: Advanced Reasoning Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2307.13692v2
Date: Fri, 28 Jul 2023 03:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 15:01:42.609571
Title: ARB: Advanced Reasoning Benchmark for Large Language Models
Title（参考訳）: ARB: 大規模言語モデルのための高度な推論ベンチマーク
Authors: Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki
Abstract要約: 複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
参考スコア（独自算出の注目度）: 94.37521840642141
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable performance on various quantitative reasoning and knowledge benchmarks. However, many of these benchmarks are losing utility as LLMs get increasingly high scores, despite not yet reaching expert performance in these domains. We introduce ARB, a novel benchmark composed of advanced reasoning problems in multiple fields. ARB presents a more challenging test than prior benchmarks, featuring problems in mathematics, physics, biology, chemistry, and law. As a subset of ARB, we introduce a challenging set of math and physics problems which require advanced symbolic reasoning and domain knowledge. We evaluate recent models such as GPT-4 and Claude on ARB and demonstrate that current models score well below 50% on more demanding tasks. In order to improve both automatic and assisted evaluation capabilities, we introduce a rubric-based evaluation approach, allowing GPT-4 to score its own intermediate reasoning steps. Further, we conduct a human evaluation of the symbolic subset of ARB, finding promising agreement between annotators and GPT-4 rubric evaluation scores.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な量的推論と知識のベンチマークで顕著な性能を示した。しかし、これらのベンチマークの多くは、これらの領域でまだ専門家のパフォーマンスに達していないにもかかわらず、LSMが高得点を獲得するにつれて実用性を失っている。複数の分野における高度な推論問題からなる新しいベンチマークであるarbを紹介する。 ARBは以前のベンチマークよりも難しいテストを示しており、数学、物理学、生物学、化学、法学の問題を特徴としている。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。自動評価能力と補助評価能力の両方を改善するために,gpt-4が独自の中間的推論ステップをスコアリングできるように,rubricベースの評価手法を導入する。さらに, arbの記号部分集合の人間的評価を行い, アノテーションとgpt-4ルブリック評価スコアの有望な一致を見出した。

関連論文リスト

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。 OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文参考訳（メタデータ） (2026-03-01T03:32:51Z)
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。 FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文参考訳（メタデータ） (2025-10-20T17:52:06Z)
ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering [38.045885431565345]
本稿では,コモンセンス推論タスクのプロセスレベル評価を導入する新しいベンチマークであるReTraceQAを紹介する。専門家が注釈を付けたデータセットでは、ほとんどのケース(14-24%)において、SLMは、欠点のある推論プロセスにもかかわらず、正しい最終回答を提供する。
論文参考訳（メタデータ） (2025-10-10T13:03:33Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol [2.3759432635713895]
我々は173の研究をレビューし、204のAI4SEベンチマークを特定します。これらのベンチマークを分類し、それらの制限を分析し、プラクティスのギャップを明らかにする。レビューに基づいて、関連するベンチマークを見つけるセマンティック検索ツールであるBenchScoutを開発した。次に、HumanEval、HumanEvalPlus、HumanEvalNextの10つの最先端コード言語モデルを評価した。HumanEvalNextでは、HumanEvalとHumanEvalPlusと比較して、パス@1のスコアが31.22%、19.94%減少した。
論文参考訳（メタデータ） (2025-03-07T18:44:32Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文参考訳（メタデータ） (2024-09-10T15:39:32Z)
Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文参考訳（メタデータ） (2024-06-12T13:39:32Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。 GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (2023-04-13T09:39:30Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。