論文の概要: Make Large Language Model a Better Ranker
- arxiv url: http://arxiv.org/abs/2403.19181v2
- Date: Mon, 24 Jun 2024 13:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:12:30.554252
- Title: Make Large Language Model a Better Ranker
- Title(参考訳): 大きな言語モデルをより良いランク付けに
- Authors: Wenshuo Chao, Zhi Zheng, Hengshu Zhu, Hao Liu,
- Abstract要約: 本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。
ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。
評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
- 参考スコア(独自算出の注目度): 20.532118635672763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate robust capabilities across various fields, leading to a paradigm shift in LLM-enhanced Recommender System (RS). Research to date focuses on point-wise and pair-wise recommendation paradigms, which are inefficient for LLM-based recommenders due to high computational costs. However, existing list-wise approaches also fall short in ranking tasks due to misalignment between ranking objectives and next-token prediction. Moreover, these LLM-based methods struggle to effectively address the order relation among candidates, particularly given the scale of ratings. To address these challenges, this paper introduces the large language model framework with Aligned Listwise Ranking Objectives (ALRO). ALRO is designed to bridge the gap between the capabilities of LLMs and the nuanced requirements of ranking tasks. Specifically, ALRO employs explicit feedback in a listwise manner by introducing soft lambda loss, a customized adaptation of lambda loss designed for optimizing order relations. This mechanism provides more accurate optimization goals, enhancing the ranking process. Additionally, ALRO incorporates a permutation-sensitive learning mechanism that addresses position bias, a prevalent issue in generative models, without imposing additional computational burdens during inference. Our evaluative studies reveal that ALRO outperforms both existing embedding-based recommendation methods and LLM-based recommendation baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野において堅牢な能力を示し、LLM強化レコメンダシステム(RS)のパラダイムシフトにつながっている。
現在までの研究は、高い計算コストのためにLLMベースのレコメンデータにとって非効率な、ポイントワイドとペアワイドのレコメンデーションパラダイムに焦点を当てている。
しかし、既存のリストワイドアプローチは、ランキング目標と次点予測のミスアライメントのため、ランキングタスクでは不足している。
さらに、これらのLCMに基づく手法は、特に評価の規模を考慮すると、候補間の順序関係を効果的に解決するのに苦労する。
これらの課題に対処するために,Aligned Listwise Ranking Objectives (ALRO) を用いた大規模言語モデルフレームワークを提案する。
ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。
具体的には、ALROは、順序関係を最適化するために設計されたラムダ損失をカスタマイズした適応である、ソフトなラムダ損失を導入することで、リストワイズに明示的なフィードバックを採用する。
このメカニズムにより、より正確な最適化目標が提供され、ランキングプロセスが強化される。
さらに、ALROには、位置バイアスに対処する置換感受性学習機構が組み込まれている。
評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
関連論文リスト
- Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - DELRec: Distilling Sequential Pattern to Enhance LLM-based Recommendation [3.5113201254928117]
逐次レコメンデーション(SR)タスクは、ユーザの過去のインタラクションと好みの変化を関連付けることで、レコメンデーションの精度を高める。
従来のモデルは、トレーニングデータ内のシーケンシャルなパターンをキャプチャすることだけに集中し、外部ソースからアイテムタイトルに埋め込まれたより広いコンテキストやセマンティックな情報を無視することが多い。
DelRecは、SRモデルから知識を抽出し、LLMがより効果的なシーケンシャルレコメンデーションのためにこれらの補足情報を容易に理解し利用できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-17T02:47:09Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。