Fugu-MT 論文翻訳(概要): From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications

論文の概要: From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications

arxiv url: http://arxiv.org/abs/2404.07108v1
Date: Wed, 10 Apr 2024 15:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-11 13:51:53.771726
Title: From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications
Title（参考訳）: モデル中心から人間中心へ: LLMにおけるテキスト評価の指標としてのリビジョン距離
Authors: Yongqiang Ma, Lizhi Qin, Jiawei Liu, Yangyang Kang, Yue Zhang, Wei Lu, Xiaozhong Liu, Qikai Cheng,
Abstract要約: 大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
参考スコア（独自算出の注目度）: 26.817477810809844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating large language models (LLMs) is fundamental, particularly in the context of practical applications. Conventional evaluation methods, typically designed primarily for LLM development, yield numerical scores that ignore the user experience. Therefore, our study shifts the focus from model-centered to human-centered evaluation in the context of AI-powered writing assistance applications. Our proposed metric, termed ``Revision Distance,'' utilizes LLMs to suggest revision edits that mimic the human writing process. It is determined by counting the revision edits generated by LLMs. Benefiting from the generated revision edit details, our metric can provide a self-explained text evaluation result in a human-understandable manner beyond the context-independent score. Our results show that for the easy-writing task, ``Revision Distance'' is consistent with established metrics (ROUGE, Bert-score, and GPT-score), but offers more insightful, detailed feedback and better distinguishes between texts. Moreover, in the context of challenging academic writing tasks, our metric still delivers reliable evaluations where other metrics tend to struggle. Furthermore, our metric also holds significant potential for scenarios lacking reference texts.
Abstract（参考訳）: 大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。従来の評価手法は、主にLLM開発用に設計され、ユーザエクスペリエンスを無視する数値スコアを得る。そこで本研究では,AIを活用した筆記支援アプリケーションにおいて,モデル中心から人中心評価へ焦点を移す。提案手法は「リビジョン距離」と呼ばれ,人間の筆記過程を模倣したリビジョン編集を提案する。 LLMによって生成された修正編集を数えることによって決定される。生成した改訂編集の詳細から、我々のメトリクスは、文脈に依存しないスコアを超えて、人間に理解可能な方法で、自己記述されたテキスト評価結果を提供することができる。以上の結果から, 「リビジョン距離」は既存の指標(ROUGE, Bert-score, GPT-score)と一致しているが, より洞察に富み, 詳細なフィードバックが得られ, テキストの識別性が向上することが示唆された。さらに、学術的な文章作成タスクに挑戦する文脈では、我々のメトリクスは、他のメトリクスが苦労する傾向にある信頼できる評価を提供しています。さらに,基準テキストを欠いたシナリオにも有意な可能性を秘めている。

関連論文リスト

The illusion of a perfect metric: Why evaluating AI's words is harder than it looks [0.0]
自然言語生成(NLG)は、AIの実用化に不可欠である。人間の評価はデファクトスタンダードと考えられているが、高価でスケーラビリティに欠ける。決定的な解として単一の計量が現れることはなく、結果として、完全に含意を考慮せずに異なる計量を用いた研究が行われる。
論文参考訳（メタデータ） (2025-08-19T13:22:41Z)
Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文参考訳（メタデータ） (2025-08-11T13:08:07Z)
Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-08-01T02:24:19Z)
Identifying Reliable Evaluation Metrics for Scientific Text Revision [7.503795054002405]
ROUGEやBERTScoreといった従来のメトリクスは主に、意味のある改善を捉えるのではなく、類似性に重点を置いている。まず手動による注釈研究を行い、異なる修正の質を評価する。そこで本研究では,NLPドメインの参照不要評価指標について検討する。 LLM-as-a-judge評価とタスク固有のメトリクスを組み合わせたハイブリッドアプローチが,最も信頼性の高いリビジョン品質評価を提供することがわかった。
論文参考訳（メタデータ） (2025-06-05T09:00:23Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。 RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文参考訳（メタデータ） (2024-10-07T16:50:47Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文参考訳（メタデータ） (2024-03-26T09:43:15Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文参考訳（メタデータ） (2024-01-30T14:52:50Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning [7.457517083017178]
大規模言語モデル(LLM)は、人間やAIが生成するテキストの評価に使用される。実用性にもかかわらず、LSMは異なる障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。ここでは、大規模な言語モデルを理解するための体系的なアプローチであるALLUREを紹介します。
論文参考訳（メタデータ） (2023-09-24T17:15:58Z)
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文参考訳（メタデータ） (2023-07-13T16:16:51Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。