Fugu-MT 論文翻訳(概要): Large Language Models as Evaluators for Recommendation Explanations

論文の概要: Large Language Models as Evaluators for Recommendation Explanations

arxiv url: http://arxiv.org/abs/2406.03248v2
Date: Thu, 6 Jun 2024 04:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 13:01:03.525280
Title: Large Language Models as Evaluators for Recommendation Explanations
Title（参考訳）: 推薦説明のための評価器としての大規模言語モデル
Authors: Xiaoyu Zhang, Yishan Li, Jiayin Wang, Bowen Sun, Weizhi Ma, Peijie Sun, Min Zhang,
Abstract要約: 我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
参考スコア（独自算出の注目度）: 23.938202791437337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The explainability of recommender systems has attracted significant attention in academia and industry. Many efforts have been made for explainable recommendations, yet evaluating the quality of the explanations remains a challenging and unresolved issue. In recent years, leveraging LLMs as evaluators presents a promising avenue in Natural Language Processing tasks (e.g., sentiment classification, information extraction), as they perform strong capabilities in instruction following and common-sense reasoning. However, evaluating recommendation explanatory texts is different from these NLG tasks, as its criteria are related to human perceptions and are usually subjective. In this paper, we investigate whether LLMs can serve as evaluators of recommendation explanations. To answer the question, we utilize real user feedback on explanations given from previous work and additionally collect third-party annotations and LLM evaluations. We design and apply a 3-level meta evaluation strategy to measure the correlation between evaluator labels and the ground truth provided by users. Our experiments reveal that LLMs, such as GPT4, can provide comparable evaluations with appropriate prompts and settings. We also provide further insights into combining human labels with the LLM evaluation process and utilizing ensembles of multiple heterogeneous LLM evaluators to enhance the accuracy and stability of evaluations. Our study verifies that utilizing LLMs as evaluators can be an accurate, reproducible and cost-effective solution for evaluating recommendation explanation texts. Our code is available at https://github.com/Xiaoyu-SZ/LLMasEvaluator.
Abstract（参考訳）: 推薦システムの説明可能性は、学術や産業において大きな注目を集めている。説明可能なレコメンデーションのために多くの努力がなされているが、説明の質を評価することは困難で未解決の課題である。近年,LLMを評価対象として活用することで,自然言語処理タスク(感情分類,情報抽出など)における将来性を示す。しかしながら、推奨説明文の評価は、その基準が人間の知覚と関連し、通常主観的であるため、これらのNLGタスクとは異なる。本稿では,LLM がレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。質問に答えるために、我々は以前の研究から得られた説明に実際のユーザフィードバックを利用し、さらにサードパーティのアノテーションやLCM評価も収集する。我々は,評価者ラベルとユーザが提供する真実の相関を計測するために,3段階のメタ評価戦略を設計し,適用する。 GPT4 などの LLM は,適切なプロンプトと設定で同等の評価を行うことができる。また,評価の精度と安定性を高めるために,LLM評価プロセスとヒトラベルの組み合わせと,多種多種LLM評価器のアンサンブルの利用に関するさらなる知見を提供する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。私たちのコードはhttps://github.com/Xiaoyu-SZ/LLMasEvaluator.comで公開されています。

関連論文リスト

Do Reviews Matter for Recommendations in the Era of Large Language Models? [8.772803183525284]
大規模言語モデル(LLM)の出現に伴い、レコメンダシステムの展望は大きな変化を遂げている。伝統的に、ユーザレビューはリコメンデーションの品質を高めるために、リッチでコンテキスト情報の重要な情報源として機能してきた。本稿では, 深層学習手法とLLMアプローチを比較して, テキストレビューの進化的役割を体系的に検討する。
論文参考訳（メタデータ） (2025-12-15T04:46:48Z)
On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
Can LLM Assist in the Evaluation of the Quality of Machine Learning Explanations? [8.806046602683333]
そこで本研究では,LLMに基づく判断と人間による判断を統合して説明を行うワークフローを提案する。 LLMに基づく審査員は、様々な説明手法の質を評価し、その評価能力と人間の判断能力を比較する。 LLMに基づく審査員は、主観的指標を用いて説明の質を効果的に評価するが、人間の判断に取って代わるだけの十分な開発は行われていないと結論づける。
論文参考訳（メタデータ） (2025-02-28T01:36:18Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文参考訳（メタデータ） (2024-07-07T00:17:24Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。