論文の概要: Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews
- arxiv url: http://arxiv.org/abs/2510.00449v1
- Date: Wed, 01 Oct 2025 03:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.343268
- Title: Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews
- Title(参考訳): In-Context User Reviews を用いたオフ・ザ・シェルフ LLM によるレーティング予測の強化
- Authors: Koki Ryu, Hitomi Yanaka,
- Abstract要約: 等級評価予測は、言語と数学的推論の両方を効果的に解く必要がある回帰タスクである。
本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。
ユーザによるレビューでは,LCMのレーティング予測性能が大幅に向上していることがわかった。
- 参考スコア(独自算出の注目度): 16.394933051332657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing the outputs of large language models (LLMs) to align with individual user preferences is an active research area. However, previous studies have mainly focused on classification or ranking tasks and have not considered Likert-scale rating prediction, a regression task that requires both language and mathematical reasoning to be solved effectively. This task has significant industrial applications, but the utilization of LLMs remains underexplored, particularly regarding the capabilities of off-the-shelf LLMs. This study investigates the performance of off-the-shelf LLMs on rating prediction, providing different in-context information. Through comprehensive experiments with eight models across three datasets, we demonstrate that user-written reviews significantly improve the rating prediction performance of LLMs. This result is comparable to traditional methods like matrix factorization, highlighting the potential of LLMs as a promising solution for the cold-start problem. We also find that the reviews for concrete items are more effective than general preference descriptions that are not based on any specific item. Furthermore, we discover that prompting LLMs to first generate a hypothetical review enhances the rating prediction performance. Our code is available at https://github.com/ynklab/rating-prediction-with-reviews.
- Abstract(参考訳): 大規模言語モデル(LLM)の出力を個別のユーザの好みに合わせてパーソナライズすることは、活発な研究分野である。
しかし、従来の研究は主に分類やランキングのタスクに焦点を合わせており、言語と数学的推論の両方を効果的に解くことを必要とする回帰タスクである、ワートスケールのレーティング予測(英語版)は検討されていない。
このタスクには工業的応用が大いにあるが、特に市販のLLMの能力について、LLMの利用は未検討のままである。
本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。
3つのデータセットにまたがる8つのモデルによる総合的な実験を通して、ユーザによるレビューにより、LCMのレーティング予測性能が大幅に向上することを示した。
この結果は行列分解のような従来の手法に匹敵するものであり、コールドスタート問題に対する有望な解としてLSMの可能性を強調している。
また,具体的な項目のレビューは,特定の項目に基づいていない一般的な嗜好記述よりも有効であることがわかった。
さらに,LLMに仮説的レビューを生成させると,評価予測性能が向上することがわかった。
私たちのコードはhttps://github.com/ynklab/rating-prediction-with-reviews.comで公開されています。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。