論文の概要: Functional Benchmarks for Robust Evaluation of Reasoning Performance,
and the Reasoning Gap
- arxiv url: http://arxiv.org/abs/2402.19450v1
- Date: Thu, 29 Feb 2024 18:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:29:08.045230
- Title: Functional Benchmarks for Robust Evaluation of Reasoning Performance,
and the Reasoning Gap
- Title(参考訳): 推論性能のロバスト評価のための機能ベンチマークと推論ギャップ
- Authors: Saurabh Srivastava, Annarose M B, Anto P V, Shashank Menon, Ajay
Sukumar, Adwaith Samod T, Alan Philipose, Stevin Prince and Sooraj Thomas
- Abstract要約: 推論テストを解決するモデルは、機能的変異のスナップショットよりもパフォーマンスに差を示さなければならない。
実世界のタスクよりも優れた推論性能を持つモデルでは,ギャップの定量化が可能であることを示す。
- 参考スコア(独自算出の注目度): 1.4425967911506987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a framework for robust evaluation of reasoning capabilities of
language models, using functional variants of benchmarks. Models that solve a
reasoning test should exhibit no difference in performance over the static
version of a problem compared to a snapshot of the functional variant. We have
rewritten the relevant fragment of the MATH benchmark into its functional
variant MATH(), with functionalization of other benchmarks to follow. When
evaluating current state-of-the-art models over snapshots of MATH(), we find a
reasoning gap -- the percentage difference between the static and functional
accuracies. We find reasoning gaps from 58.35% to 80.31% among the
state-of-the-art closed and open weights models that perform well on static
benchmarks, with the caveat that the gaps are likely to be smaller with more
sophisticated prompting strategies. Here we show that models which anecdotally
have good reasoning performance over real-world tasks, have quantifiable lower
gaps, motivating the open problem of building "gap 0" models. Code for
evaluation and new evaluation datasets, three MATH() snapshots, are publicly
available at https://github.com/consequentai/fneval/.
- Abstract(参考訳): 本稿では,言語モデルの推論能力の頑健な評価を行うためのフレームワークを提案する。
推論テストを解決するモデルは、機能的な変異のスナップショットと比較して、問題の静的バージョンよりもパフォーマンスに差がない。
我々は、MATHベンチマークの関連するフラグメントを、他のベンチマークの機能化とともに、その機能変種MATH()に書き換えた。
MATH()のスナップショットで現在の最先端モデルを評価すると、推論ギャップ -- 静的と関数的アキュラシーのパーセンテージの違い -- が見つかります。
私たちは、静的ベンチマークでうまく機能する最先端のクローズドおよびオープンウェイトモデルのうち、58.35%から80.31%の理由付けギャップを見つけました。
ここでは,実世界のタスクよりも合理的な推論性能を持つモデルが,より低いギャップを定量化できることを示し,gap 0 モデル構築のオープン問題を動機付ける。
評価のためのコードと新しい評価データセット、3つのMATH()スナップショットがhttps://github.com/consequentai/fneval/で公開されている。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文 参考訳(メタデータ) (2023-07-06T02:31:38Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。