Fugu-MT 論文翻訳(概要): The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

論文の概要: The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

arxiv url: http://arxiv.org/abs/2407.10457v1
Date: Mon, 15 Jul 2024 06:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 16:11:00.017576
Title: The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism
Title（参考訳）: The Good, The Bad, and The Greedy: The Evaluation of LLMs should not Ignore Non-Determinism
Authors: Yifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin,
Abstract要約: 大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。 greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
参考スコア（独自算出の注目度）: 39.392450788666814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current evaluations of large language models (LLMs) often overlook non-determinism, typically focusing on a single output per example. This limits our understanding of LLM performance variability in real-world applications. Our study addresses this issue by exploring key questions about the performance differences between greedy decoding and sampling, identifying benchmarks' consistency regarding non-determinism, and examining unique model behaviors. Through extensive experiments, we observe that greedy decoding generally outperforms sampling methods for most evaluated tasks. We also observe consistent performance across different LLM sizes and alignment methods, noting that alignment can reduce sampling variance. Moreover, our best-of-N sampling approach demonstrates that smaller LLMs can match or surpass larger models such as GPT-4-Turbo, highlighting the untapped potential of smaller LLMs. This research shows the importance of considering non-determinism in LLM evaluations and provides insights for future LLM development and evaluation.
Abstract（参考訳）: 大規模言語モデル(LLM)の現在の評価は、通常、例ごとに1つの出力に焦点を絞って、非決定性を見落としていることが多い。これにより、現実世界のアプリケーションにおけるLLMパフォーマンスの多様性に対する理解が制限されます。本研究は,非決定性に関するベンチマークの一貫性の同定,一意なモデル動作の検証など,強欲な復号化とサンプリングのパフォーマンス差に関する重要な疑問に対処する。広範な実験を通して、グリーディ復号法は一般に最も評価されたタスクのサンプリング方法より優れていることが観察された。また、異なるLLMサイズとアライメント法で一貫した性能を観察し、アライメントがサンプリングのばらつきを低減できることを示した。さらに,我々のベスト・オブ・Nサンプリング手法は,小型LLMが GPT-4-Turbo などの大型モデルと一致したり,超えたりすることを示し,小型 LLM の未発見の可能性を強調した。本研究は, LLM評価における非決定性の検討の重要性を示し, 今後のLCM開発・評価への洞察を提供する。

関連論文リスト

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Enhancing LLM Evaluations: The Garbling Trick [0.0]
本稿では,既存の大規模言語モデル(LLM)の評価を,段階的に困難なタスクに変換する手法を提案する。これらの強化された評価は推論能力を強調し、元の評価では明らかでない相対的な性能差を明らかにすることができる。以上の結果から,これらのモデルの比較能力に関する知見が得られ,特に,ベースLLMとより最近の「推論」モデルの違いが強調された。
論文参考訳（メタデータ） (2024-11-03T11:39:50Z)
Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores [2.886479348067378]
我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:04:28Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [10.091146498861333]
GPT-4のような商用の大規模言語モデル(LLM)は、近年、異なるアライメントアプローチの評価と比較に使われている。 LLM審査員の信頼性とアライメントを評価・比較・可視化する枠組みを開発した。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。しかし、LPMには、GPT-4やQwen2.5-72Bの語彙パラフレージングとの戦いに見られるような制限がある。
論文参考訳（メタデータ） (2024-03-08T00:19:24Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。