Fugu-MT 論文翻訳(概要): Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap

論文の概要: Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap

arxiv url: http://arxiv.org/abs/2402.19450v1
Date: Thu, 29 Feb 2024 18:48:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:29:08.045230
Title: Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
Title（参考訳）: 推論性能のロバスト評価のための機能ベンチマークと推論ギャップ
Authors: Saurabh Srivastava, Annarose M B, Anto P V, Shashank Menon, Ajay Sukumar, Adwaith Samod T, Alan Philipose, Stevin Prince and Sooraj Thomas
Abstract要約: 推論テストを解決するモデルは、機能的変異のスナップショットよりもパフォーマンスに差を示さなければならない。実世界のタスクよりも優れた推論性能を持つモデルでは,ギャップの定量化が可能であることを示す。
参考スコア（独自算出の注目度）: 1.4425967911506987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a framework for robust evaluation of reasoning capabilities of language models, using functional variants of benchmarks. Models that solve a reasoning test should exhibit no difference in performance over the static version of a problem compared to a snapshot of the functional variant. We have rewritten the relevant fragment of the MATH benchmark into its functional variant MATH(), with functionalization of other benchmarks to follow. When evaluating current state-of-the-art models over snapshots of MATH(), we find a reasoning gap -- the percentage difference between the static and functional accuracies. We find reasoning gaps from 58.35% to 80.31% among the state-of-the-art closed and open weights models that perform well on static benchmarks, with the caveat that the gaps are likely to be smaller with more sophisticated prompting strategies. Here we show that models which anecdotally have good reasoning performance over real-world tasks, have quantifiable lower gaps, motivating the open problem of building "gap 0" models. Code for evaluation and new evaluation datasets, three MATH() snapshots, are publicly available at https://github.com/consequentai/fneval/.
Abstract（参考訳）: 本稿では,言語モデルの推論能力の頑健な評価を行うためのフレームワークを提案する。推論テストを解決するモデルは、機能的な変異のスナップショットと比較して、問題の静的バージョンよりもパフォーマンスに差がない。我々は、MATHベンチマークの関連するフラグメントを、他のベンチマークの機能化とともに、その機能変種MATH()に書き換えた。 MATH()のスナップショットで現在の最先端モデルを評価すると、推論ギャップ -- 静的と関数的アキュラシーのパーセンテージの違い -- が見つかります。私たちは、静的ベンチマークでうまく機能する最先端のクローズドおよびオープンウェイトモデルのうち、58.35%から80.31%の理由付けギャップを見つけました。ここでは,実世界のタスクよりも合理的な推論性能を持つモデルが,より低いギャップを定量化できることを示し,gap 0 モデル構築のオープン問題を動機付ける。評価のためのコードと新しい評価データセット、3つのMATH()スナップショットがhttps://github.com/consequentai/fneval/で公開されている。

関連論文リスト

THUNDER: Tile-level Histopathology image UNDERstanding benchmark [32.185038017473396]
THUNDERは、デジタル病理基盤モデルのタイルレベルベンチマークである。本稿では,16種類のデータセットに対して,23の基盤モデルを包括的に比較する。
論文参考訳（メタデータ） (2025-07-10T15:41:35Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文参考訳（メタデータ） (2024-02-18T03:40:06Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。数ショット設定における性能推定器の精度を測定した。評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文参考訳（メタデータ） (2023-07-06T02:31:38Z)
Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文参考訳（メタデータ） (2023-05-30T06:40:08Z)
Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文参考訳（メタデータ） (2023-04-14T16:02:04Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。 EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文参考訳（メタデータ） (2020-06-02T14:10:13Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。