論文の概要: From Understanding to Generation: An Efficient Shortcut for Evaluating Language Models
- arxiv url: http://arxiv.org/abs/2506.03592v1
- Date: Wed, 04 Jun 2025 05:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.172235
- Title: From Understanding to Generation: An Efficient Shortcut for Evaluating Language Models
- Title(参考訳): 理解から生成へ:言語モデルを評価するための効率的なショートカット
- Authors: Viktor Hangya, Fabian Küch, Darina Gold,
- Abstract要約: 本研究の目的は,NLGベンチマークの計算負担を低減し,モデルトレーニング中に重要なLCM機能を監視することである。
我々は生成タスクを計算的に安価にNLU代替品に再構成する。
その結果,タスク形式と,より安価な代替品による能力評価,評価時間の35倍以上の短縮を実現した。
- 参考スコア(独自算出の注目度): 3.155634989720391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative evaluation of LLMs during training is essential to ensure expected capability development, but can be time- and compute-intensive. While NLU tasks, where the model selects from fixed answer choices, are cheap to evaluate, essential capabilities like reasoning and code generation rely on the more time-consuming NLG (token-by-token generation) format. In this work, our aim is to decrease the computational burden of NLG benchmarks in order to enable monitoring crucial LLM capabilities during model training. We reformulate generative tasks into computationally cheaper NLU alternatives. We test the performance correlation between the original and reformulated tasks using 8 LMs of various sizes and 4 capabilities: mathematical reasoning, code generation, factual knowledge and reading comprehension. Our results show a strong correlation between task formats, supporting capability assessment via cheaper alternatives and achieving over 35x average reduction in evaluation time. We plan to publish our benchmark adaptions.
- Abstract(参考訳): トレーニング中のLCMの反復的評価は、期待される能力開発に不可欠であるが、時間と計算集約性がある。
NLUタスクは、モデルが固定された回答選択から選択するものであるが、推論やコード生成といった重要な機能は、より時間を要するNLG(token-by-token generation)フォーマットに依存している。
本研究の目的は,NLGベンチマークの計算負担を低減し,モデルトレーニング中に重要なLCM機能を監視することである。
我々は生成タスクを計算的に安価にNLU代替品に再構成する。
本研究は,数理推論,コード生成,事実知識,読解理解の4つの能力と8つのLMを用いて,元のタスクと修正タスクのパフォーマンス相関を検証した。
その結果,タスク形式と,より安価な代替品による能力評価,評価時間の35倍以上の短縮を実現した。
ベンチマーク適応を公表する予定です。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - COFFE: A Code Efficiency Benchmark for Code Generation [20.79578698298569]
LLM生成したコードソリューションの時間効率を評価するためのコード生成ベンチマークであるCOFFEを提案する。
COFFEには関数レベルとファイルレベルのコード生成にそれぞれ398と358の問題がある。
時間評価指標として,CPU命令数に基づくefficienct@kを提案する。
論文 参考訳(メタデータ) (2025-02-05T02:08:51Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。