Fugu-MT 論文翻訳(概要): LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

論文の概要: LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

arxiv url: http://arxiv.org/abs/2412.13091v1
Date: Tue, 17 Dec 2024 17:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.791761
Title: LMUnit: Fine-grained Evaluation with Natural Language Unit Tests
Title（参考訳）: LMUnit: 自然言語ユニットテストによるきめ細かい評価
Authors: Jon Saad-Falcon, Rajan Vivek, William Berrios, Nandita Shankar Naik, Matija Franklin, Bertie Vidgen, Amanpreet Singh, Douwe Kiela, Shikib Mehri,
Abstract要約: 応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。 LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 43.096722878672956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models become integral to critical workflows, assessing their behavior remains a fundamental challenge -- human evaluation is costly and noisy, while automated metrics provide only coarse, difficult-to-interpret signals. We introduce natural language unit tests, a paradigm that decomposes response quality into explicit, testable criteria, along with a unified scoring model, LMUnit, which combines multi-objective training across preferences, direct ratings, and natural language rationales. Through controlled human studies, we show this paradigm significantly improves inter-annotator agreement and enables more effective LLM development workflows. LMUnit achieves state-of-the-art performance on evaluation benchmarks (FLASK, BigGenBench) and competitive results on RewardBench. These results validate both our proposed paradigm and scoring model, suggesting a promising path forward for language model evaluation and development.
Abstract（参考訳）: 言語モデルがクリティカルなワークフローに不可欠なものになるにつれて、その振る舞いを評価することは依然として根本的な課題である。反応品質を明示的かつ検証可能な基準に分解するパラダイムである自然言語単体テストと、嗜好や直接評価、自然言語の合理性といった多目的学習を組み合わせた統合スコアリングモデルLMUnitを紹介する。制御された人間の研究を通して、このパラダイムはアノテーション間の合意を大幅に改善し、より効果的なLLM開発ワークフローを実現する。 LMUnitは評価ベンチマーク(FLASK、BigGenBench)の最先端のパフォーマンスとRewardBenchの競争結果を達成する。これらの結果は,提案したパラダイムとスコアリングモデルの両方を検証し,言語モデルの評価と開発に期待できる道筋を示唆している。

関連論文リスト

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics [18.936553687978087]
大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。 GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
論文参考訳（メタデータ） (2026-02-09T13:56:06Z)
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.74065648648307]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文参考訳（メタデータ） (2025-08-05T12:06:16Z)
Evaluating Large Language Models for the Generation of Unit Tests with Equivalence Partitions and Boundary Values [42.88667535189424]
本研究では,Large Language Models (LLM) がテストケースを自動生成する可能性を評価する。コードと要求を統合し、等価パーティションや境界値といった重要なケースをカバーする最適化されたプロンプトが開発された。その結果, LLMの有効性は, 適切に設計されたプロンプト, 堅牢な実装, 正確な要件に依存することがわかった。
論文参考訳（メタデータ） (2025-05-14T22:22:15Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文参考訳（メタデータ） (2024-08-09T12:23:36Z)
Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。 InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文参考訳（メタデータ） (2024-06-25T13:20:08Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文参考訳（メタデータ） (2023-09-23T08:46:11Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文参考訳（メタデータ） (2023-05-18T17:23:00Z)
ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文参考訳（メタデータ） (2023-04-27T16:38:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。