Fugu-MT 論文翻訳(概要): A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis

論文の概要: A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis

arxiv url: http://arxiv.org/abs/2502.09316v1
Date: Thu, 13 Feb 2025 13:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.28765
Title: A Judge-free LLM Open-ended Generation Benchmark Based on the Distributional Hypothesis
Title（参考訳）: 分散仮説に基づく無判定LLMオープンエンドジェネレーションベンチマーク
Authors: Kentaro Imajo, Masanori Hirano, Shuji Suzuki, Hiroaki Mikami,
Abstract要約: 我々は,n-gram統計量と規則を用いた大規模言語モデル(LLM)を評価する新しいベンチマークを提案する。質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。本ベンチマークはGPT-4oに基づく評価と相関するが,計算資源は著しく少ない。
参考スコア（独自算出の注目度）: 1.5802986215292303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the open-ended text generation of large language models (LLMs) is challenging because of the lack of a clear ground truth and the high cost of human or LLM-based assessments. We propose a novel benchmark that evaluates LLMs using n-gram statistics and rules, without relying on human judgement or LLM-as-a-judge approaches. Using 50 question and reference answer sets, we introduce three new metrics based on n-grams and rules: Fluency, Truthfulness, and Helpfulness. Our benchmark strongly correlates with GPT-4o-based evaluations while requiring significantly fewer computational resources, demonstrating its effectiveness as a scalable alternative for assessing LLMs' open-ended generation capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)のオープンエンドテキスト生成を評価することは、明確な基礎的事実の欠如と、人間やLLMに基づく評価の高コストのため困難である。人間の判断やLSM-as-a-judgeアプローチに頼ることなく,n-gram統計とルールを用いてLCMを評価する新しいベンチマークを提案する。質問50と参照回答セットを用いて,n-gramとルールに基づく3つの新しいメトリクスを導入する。本ベンチマークは, GPT-4o による評価と相関するが, 計算資源は著しく少なく, LLM のオープン・エンド・ジェネレーション能力を評価するためのスケーラブルな代替手段としての有効性を示す。

関連論文リスト

On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
RJE: A Retrieval-Judgment-Exploration Framework for Efficient Knowledge Graph Question Answering with LLMs [18.947344953344995]
Retrieval-Judgment-Exploration (RJE)は、洗練された推論経路を検索し、その十分性を評価し、追加の証拠を条件付きで探索するフレームワークである。 RJE はエージェントベースの手法と比較して LLM 呼び出しとトークンの使用量を著しく削減し、大幅な効率改善をもたらす。
論文参考訳（メタデータ） (2025-09-25T03:56:18Z)
Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。 Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。 BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文参考訳（メタデータ） (2025-02-10T06:49:29Z)
DHP Benchmark: Are LLMs Good NLG Evaluators? [42.16315294351651]
大規模言語モデル(LLM)は、自然言語生成(NLG)タスクにおいて、ますます評価役として機能している。 LLMのNLG評価能力を評価するために,階層摂動(DHP)ベンチマークフレームワークを提案する。このベンチマークでは、要約、ストーリーコンプリート、質問回答、翻訳の4つのNLGタスクをカバーして、6つの評価データセットを再確立しました。
論文参考訳（メタデータ） (2024-08-25T02:01:38Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。 GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文参考訳（メタデータ） (2024-04-02T06:14:54Z)
An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文参考訳（メタデータ） (2024-03-08T00:19:24Z)
GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文参考訳（メタデータ） (2024-02-22T21:22:04Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。