論文の概要: Identifying Reliable Evaluation Metrics for Scientific Text Revision
- arxiv url: http://arxiv.org/abs/2506.04772v2
- Date: Fri, 06 Jun 2025 09:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.075573
- Title: Identifying Reliable Evaluation Metrics for Scientific Text Revision
- Title(参考訳): 科学的テキスト改訂のための信頼性評価指標の同定
- Authors: Léane Jourdan, Florian Boudin, Richard Dufour, Nicolas Hernandez,
- Abstract要約: ROUGEやBERTScoreといった従来のメトリクスは主に、意味のある改善を捉えるのではなく、類似性に重点を置いている。
まず手動による注釈研究を行い、異なる修正の質を評価する。
そこで本研究では,NLPドメインの参照不要評価指標について検討する。
LLM-as-a-judge評価とタスク固有のメトリクスを組み合わせたハイブリッドアプローチが,最も信頼性の高いリビジョン品質評価を提供することがわかった。
- 参考スコア(独自算出の注目度): 7.503795054002405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating text revision in scientific writing remains a challenge, as traditional metrics such as ROUGE and BERTScore primarily focus on similarity rather than capturing meaningful improvements. In this work, we analyse and identify the limitations of these metrics and explore alternative evaluation methods that better align with human judgments. We first conduct a manual annotation study to assess the quality of different revisions. Then, we investigate reference-free evaluation metrics from related NLP domains. Additionally, we examine LLM-as-a-judge approaches, analysing their ability to assess revisions with and without a gold reference. Our results show that LLMs effectively assess instruction-following but struggle with correctness, while domain-specific metrics provide complementary insights. We find that a hybrid approach combining LLM-as-a-judge evaluation and task-specific metrics offers the most reliable assessment of revision quality.
- Abstract(参考訳): ROUGEやBERTScoreのような伝統的なメトリクスは、意味のある改善を捉えるのではなく、主に類似性に焦点を当てている。
本研究では,これらの指標の限界を分析し,人間の判断に適合する代替評価手法を検討する。
まず手動による注釈研究を行い、異なる修正の質を評価する。
そこで本研究では,NLPドメインの参照不要評価指標について検討する。
また, LLM-as-a-judgeアプローチについて検討し, ゴールドレファレンスを伴わないリビジョンを評価する能力について検討した。
この結果から,LLMは命令追従を効果的に評価するが正確性に苦しむ一方,ドメイン固有の指標は相補的な洞察を与えることがわかった。
LLM-as-a-judge評価とタスク固有のメトリクスを組み合わせたハイブリッドアプローチが,最も信頼性の高いリビジョン品質評価を提供することがわかった。
関連論文リスト
- RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications [26.857056013032263]
大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。
我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
論文 参考訳(メタデータ) (2024-04-10T15:46:08Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。