論文の概要: Process-Supervised LLM Recommenders via Flow-guided Tuning
- arxiv url: http://arxiv.org/abs/2503.07377v1
- Date: Mon, 10 Mar 2025 14:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:59.107385
- Title: Process-Supervised LLM Recommenders via Flow-guided Tuning
- Title(参考訳): フロー誘導チューニングによるプロセススーパービジョンLDMレコメンダ
- Authors: Chongming Gao, Mengyao Gao, Chenxiao Fan, Shuai Yuan, Wentao Shi, Xiangnan He,
- Abstract要約: フローガイドファインチューニングレコメンデータ(フローナー)
重要なイノベーションは、アイテムレベルの報酬を構成トークンの報酬に分解することだ。
メカニズムは 人気バイアスの緩和と 公平性向上を実現します
- 参考スコア(独自算出の注目度): 20.918237955666836
- License:
- Abstract: While large language models (LLMs) are increasingly adapted for recommendation systems via supervised fine-tuning (SFT), this approach amplifies popularity bias due to its likelihood maximization objective, compromising recommendation diversity and fairness. To address this, we present Flow-guided fine-tuning recommender (Flower), which replaces SFT with a Generative Flow Network (GFlowNet) framework that enacts process supervision through token-level reward propagation. Flower's key innovation lies in decomposing item-level rewards into constituent token rewards, enabling direct alignment between token generation probabilities and their reward signals. This mechanism achieves three critical advancements: (1) popularity bias mitigation and fairness enhancement through empirical distribution matching, (2) preservation of diversity through GFlowNet's proportional sampling, and (3) flexible integration of personalized preferences via adaptable token rewards. Experiments demonstrate Flower's superior distribution-fitting capability and its significant advantages over traditional SFT in terms of fairness, diversity, and accuracy, highlighting its potential to improve LLM-based recommendation systems. The implementation is available via https://github.com/Mr-Peach0301/Flower
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師付き微調整(SFT)を通じてレコメンデーションシステムに適応する傾向にあるが、このアプローチは、その最大化目標の最大化によって人気バイアスを増幅し、レコメンデーションの多様性と公平性を損なう。
そこで本稿では,SFTをGFlowNet(Generative Flow Network)フレームワークに置き換えたFlow-guided fine-tuning recommender(Flower)を提案する。
フラワーの重要な革新は、アイテムレベルの報酬を構成トークンの報酬に分解することであり、トークン生成確率と報酬信号の直接的なアライメントを可能にする。
このメカニズムは,(1)経験的分布マッチングによる人気バイアス緩和と公正化,(2)GFlowNetの比例サンプリングによる多様性の保存,(3)適応可能なトークン報酬によるパーソナライズされた好みの柔軟な統合,の3つの重要な進歩を達成している。
実験では、LLMベースのレコメンデーションシステムを改善する可能性を浮き彫りにして、フラワーの配電性能と従来のSFTよりも優れていることを実証している。
実装はhttps://github.com/Mr-Peach0301/Flowerで利用可能である。
関連論文リスト
- Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。
自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。
事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-05T09:53:22Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。
本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。
GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文 参考訳(メタデータ) (2023-02-11T22:06:17Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - HyperFair: A Soft Approach to Integrating Fairness Criteria [17.770533330914102]
我々は,ハイブリッドレコメンデータシステムにおいて,ソフトフェアネス制約を強制するフレームワークであるHyperFairを紹介する。
まず,確率的ソフトロジックレコメンデータシステムテンプレートの拡張として提案する手法を提案する。
複数のHyperFairハイブリッドレコメンデータを実装することで,私たちのアプローチを実証的に検証し,最先端のフェアレコメンデータと比較する。
論文 参考訳(メタデータ) (2020-09-05T05:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。