Fugu-MT 論文翻訳(概要): Leveraging Large Language Models for NLG Evaluation: A Survey

論文の概要: Leveraging Large Language Models for NLG Evaluation: A Survey

arxiv url: http://arxiv.org/abs/2401.07103v1
Date: Sat, 13 Jan 2024 15:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 19:43:18.500734
Title: Leveraging Large Language Models for NLG Evaluation: A Survey
Title（参考訳）: NLG評価のための大規模言語モデルの活用:調査
Authors: Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Chongyang Tao
Abstract要約: LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
参考スコア（独自算出の注目度）: 56.21534358429998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the rapidly evolving domain of Natural Language Generation (NLG) evaluation, introducing Large Language Models (LLMs) has opened new avenues for assessing generated content quality, e.g., coherence, creativity, and context relevance. This survey aims to provide a thorough overview of leveraging LLMs for NLG evaluation, a burgeoning area that lacks a systematic analysis. We propose a coherent taxonomy for organizing existing LLM-based evaluation metrics, offering a structured framework to understand and compare these methods. Our detailed exploration includes critically assessing various LLM-based methodologies, as well as comparing their strengths and limitations in evaluating NLG outputs. By discussing unresolved challenges, including bias, robustness, domain-specificity, and unified evaluation, this survey seeks to offer insights to researchers and advocate for fairer and more advanced NLG evaluation techniques.
Abstract（参考訳）: 急速に発展している自然言語生成(NLG)評価分野において、Large Language Models (LLMs)を導入し、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。本調査は, 系統解析に欠ける新興地域であるNLG評価におけるLCMの活用について, 概観することを目的とする。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。我々の詳細な調査には、様々なLCMベースの方法論を批判的に評価することや、NLG出力の評価における強度と限界を比較することが含まれる。バイアス、堅牢性、ドメイン固有性、統一評価などの未解決課題を議論することで、この調査は研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目指している。

関連論文リスト

Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Large Language Models Are Active Critics in NLG Evaluation [9.932334723464129]
自然言語生成(NLG)システムを評価する新しい手法であるActive-Criticを紹介する。このプロトコルにより、大きな言語モデル(LLM)が'アクティブな批評家'として機能できる。実験により,本手法は現状評価法よりも人的判断との整合性が高いことが示された。
論文参考訳（メタデータ） (2024-10-14T17:04:41Z)
LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models [6.002286552369069]
LalaEvalは、特定のドメイン内で標準化された人間の評価を行うための体系的な方法論を提供することによって、重要な研究ギャップを埋めることを目指している。本稿では,ロジスティクス業界におけるフレームワークの適用例を示す。
論文参考訳（メタデータ） (2024-08-23T19:12:45Z)
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文参考訳（メタデータ） (2024-07-29T03:37:14Z)
Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文参考訳（メタデータ） (2024-07-04T16:41:08Z)
Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。 Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文参考訳（メタデータ） (2024-06-26T14:04:29Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。 LLMに基づく各種自動評価手法が提案されている。
論文参考訳（メタデータ） (2024-02-02T13:06:35Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。その影響と倫理的考察の具体化について検討する。
論文参考訳（メタデータ） (2022-05-13T18:00:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。