論文の概要: Metamorphic Evaluation of ChatGPT as a Recommender System
- arxiv url: http://arxiv.org/abs/2411.12121v1
- Date: Mon, 18 Nov 2024 23:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:13.094855
- Title: Metamorphic Evaluation of ChatGPT as a Recommender System
- Title(参考訳): リコメンダシステムとしてのChatGPTのメタモルフィック評価
- Authors: Madhurima Khirbat, Yongli Ren, Pablo Castells, Mark Sanderson,
- Abstract要約: 本稿では,GPTに基づくレコメンデータシステムの評価のためのメタモルフィックテストについて紹介する。
MRの出力でその関係が満たされたかどうかを測定するために、類似度指標が配置される。
- 参考スコア(独自算出の注目度): 24.129839704666523
- License:
- Abstract: With the rise of Large Language Models (LLMs) such as ChatGPT, researchers have been working on how to utilize the LLMs for better recommendations. However, although LLMs exhibit black-box and probabilistic characteristics (meaning their internal working is not visible), the evaluation framework used for assessing these LLM-based recommender systems (RS) are the same as those used for traditional recommender systems. To address this gap, we introduce the metamorphic testing for the evaluation of GPT-based RS. This testing technique involves defining of metamorphic relations (MRs) between the inputs and checking if the relationship has been satisfied in the outputs. Specifically, we examined the MRs from both RS and LLMs perspectives, including rating multiplication/shifting in RS and adding spaces/randomness in the LLMs prompt via prompt perturbation. Similarity metrics (e.g. Kendall tau and Ranking Biased Overlap(RBO)) are deployed to measure whether the relationship has been satisfied in the outputs of MRs. The experiment results on MovieLens dataset with GPT3.5 show that lower similarity are obtained in terms of Kendall $\tau$ and RBO, which concludes that there is a need of a comprehensive evaluation of the LLM-based RS in addition to the existing evaluation metrics used for traditional recommender systems.
- Abstract(参考訳): ChatGPTのようなLarge Language Models(LLM)の台頭により、研究者はLLMをより良いレコメンデーションに利用する方法を模索してきた。
しかしながら、LSMはブラックボックスと確率的特性(内部動作が見えないことを意味する)を示すが、これらのLSMベースのレコメンデータシステム(RS)を評価するために使用される評価フレームワークは、従来のレコメンデータシステムで使用されるものと同じである。
このギャップに対処するために,GPTに基づくRSの評価のためのメタモルフィックテストを導入する。
このテスト手法では、入力間のメタモルフィック関係(MR)を定義し、その関係が出力で満たされているかどうかをチェックする。
具体的には, RS と LLM の両視点から MR について検討し, RS のレーティング乗算/シフト, 即時摂動による LLM の空間/ランダム性の追加などを行った。
類似度指標(例えばKendall tau と Ranking Biased Overlap(RBO))は、MRの出力で関係が満足しているかどうかを測定するために配置される。GPT3.5を用いたMovieLensデータセットの実験結果は、従来のレコメンデータシステムで使用されている既存の評価指標に加えて、LLMベースのRSを総合的に評価する必要があると結論付けている。
関連論文リスト
- Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - Behavior Alignment: A New Perspective of Evaluating LLM-based Conversational Recommender Systems [1.652907918484303]
大言語モデル (LLM) は対話型レコメンダシステム (CRS) において大きな可能性を証明している。
LLMは、しばしば柔軟で受動的に見え、十分な調査なしに推奨タスクを完了するために急いでいる。
この振る舞いの不一致は、推奨の精度を低下させ、ユーザの満足度を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-04-17T21:56:27Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large
Language Model Recommendation [52.62492168507781]
LLM(FaiRLLM)を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。
このベンチマークは、慎重に作成されたメトリクスと、8つの機密属性を考慮に入れたデータセットで構成されている。
FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。
論文 参考訳(メタデータ) (2023-05-12T16:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。