Fugu-MT 論文翻訳(概要): Process-Supervised LLM Recommenders via Flow-guided Tuning

論文の概要: Process-Supervised LLM Recommenders via Flow-guided Tuning

arxiv url: http://arxiv.org/abs/2503.07377v1
Date: Mon, 10 Mar 2025 14:31:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.96456
Title: Process-Supervised LLM Recommenders via Flow-guided Tuning
Title（参考訳）: フロー誘導チューニングによるプロセススーパービジョンLDMレコメンダ
Authors: Chongming Gao, Mengyao Gao, Chenxiao Fan, Shuai Yuan, Wentao Shi, Xiangnan He,
Abstract要約: フローガイドファインチューニングレコメンデータ(フローナー) 重要なイノベーションは、アイテムレベルの報酬を構成トークンの報酬に分解することだ。メカニズムは人気バイアスの緩和と公平性向上を実現します
参考スコア（独自算出の注目度）: 20.918237955666836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) are increasingly adapted for recommendation systems via supervised fine-tuning (SFT), this approach amplifies popularity bias due to its likelihood maximization objective, compromising recommendation diversity and fairness. To address this, we present Flow-guided fine-tuning recommender (Flower), which replaces SFT with a Generative Flow Network (GFlowNet) framework that enacts process supervision through token-level reward propagation. Flower's key innovation lies in decomposing item-level rewards into constituent token rewards, enabling direct alignment between token generation probabilities and their reward signals. This mechanism achieves three critical advancements: (1) popularity bias mitigation and fairness enhancement through empirical distribution matching, (2) preservation of diversity through GFlowNet's proportional sampling, and (3) flexible integration of personalized preferences via adaptable token rewards. Experiments demonstrate Flower's superior distribution-fitting capability and its significant advantages over traditional SFT in terms of fairness, diversity, and accuracy, highlighting its potential to improve LLM-based recommendation systems. The implementation is available via https://github.com/Mr-Peach0301/Flower
Abstract（参考訳）: 大規模言語モデル(LLM)は、教師付き微調整(SFT)を通じてレコメンデーションシステムに適応する傾向にあるが、このアプローチは、その最大化目標の最大化によって人気バイアスを増幅し、レコメンデーションの多様性と公平性を損なう。そこで本稿では,SFTをGFlowNet(Generative Flow Network)フレームワークに置き換えたFlow-guided fine-tuning recommender(Flower)を提案する。フラワーの重要な革新は、アイテムレベルの報酬を構成トークンの報酬に分解することであり、トークン生成確率と報酬信号の直接的なアライメントを可能にする。このメカニズムは,(1)経験的分布マッチングによる人気バイアス緩和と公正化,(2)GFlowNetの比例サンプリングによる多様性の保存,(3)適応可能なトークン報酬によるパーソナライズされた好みの柔軟な統合,の3つの重要な進歩を達成している。実験では、LLMベースのレコメンデーションシステムを改善する可能性を浮き彫りにして、フラワーの配電性能と従来のSFTよりも優れていることを実証している。実装はhttps://github.com/Mr-Peach0301/Flowerで利用可能である。

関連論文リスト

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文参考訳（メタデータ） (2025-08-07T17:59:04Z)
GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks [36.39484385717512]
本稿では、生成勧告(GR)を多段階生成タスクとして扱い、GFlowNetsベースの微調整フレームワーク(GFlowGR)を構築する。提案フレームワークは,従来のレコメンデータシステムからの協調的知識を統合し,適応的軌道サンプリングと包括的報酬モデルを作成する。
論文参考訳（メタデータ） (2025-06-19T08:04:31Z)
GFlowVLM: Enhancing Multi-step Reasoning in Vision-Language Models with Generative Flow Networks [4.851402232145819]
我々は、生成フローネットワーク(GFlowNets)を用いた視覚言語モデル(VLMs)を微調整するフレームワークであるGFlowVLMを紹介する。 GFlowVLMは、環境を非マルコフ決定プロセスとしてモデル化し、現実世界のアプリケーションに必要な長期的な依存関係をキャプチャする。 GFlowVLMがカードゲーム(NumberLine, BlackJack)や実施計画タスク(ALFWorld)といった複雑なタスクに有効であることを示す実証実験結果。
論文参考訳（メタデータ） (2025-03-09T08:38:10Z)
Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。 OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文参考訳（メタデータ） (2025-01-06T21:16:51Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
Pre-Training and Fine-Tuning Generative Flow Networks [61.90529626590415]
本稿では,GFlowNetの報酬なし事前学習のための新しいアプローチを提案する。自己指導型問題としてトレーニングをフレーミングすることで,候補空間の探索を学習する結果条件付きGFlowNetを提案する。事前学習したOC-GFNモデルにより、下流タスクにおける新しい報酬関数をサンプリングできるポリシーを直接抽出できることを示す。
論文参考訳（メタデータ） (2023-10-05T09:53:22Z)
Fairness-aware Federated Minimax Optimization with Convergence Guarantee [10.727328530242461]
フェデレートラーニング(FL)はそのプライバシー保護機能のためにかなりの注目を集めている。ユーザデータ管理の自由の欠如は、モデルが人種や性別などのセンシティブな要因に偏っている、グループフェアネスの問題につながる可能性がある。本稿では,FLにおけるグループフェアネス問題に明示的に対処するために,拡張ラグランジアン法(FFALM)を用いたフェアフェデレーション平均化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-07-10T08:45:58Z)
Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文参考訳（メタデータ） (2023-02-19T03:19:40Z)
Distributional GFlowNets with Quantile Flows [73.73721901056662]
Generative Flow Networks(GFlowNets)は、エージェントが一連の意思決定ステップを通じて複雑な構造を生成するためのポリシーを学ぶ確率的サンプルの新たなファミリーである。本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 GFlowNet学習アルゴリズムは,リスク不確実性のあるシナリオを扱う上で不可欠な,リスクに敏感なポリシーを学習することができる。
論文参考訳（メタデータ） (2023-02-11T22:06:17Z)
Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。 GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文参考訳（メタデータ） (2022-10-07T03:33:56Z)
Learning GFlowNets from partial episodes for improved convergence and stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。 GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文参考訳（メタデータ） (2022-09-26T15:44:24Z)
HyperFair: A Soft Approach to Integrating Fairness Criteria [17.770533330914102]
我々は,ハイブリッドレコメンデータシステムにおいて,ソフトフェアネス制約を強制するフレームワークであるHyperFairを紹介する。まず,確率的ソフトロジックレコメンデータシステムテンプレートの拡張として提案する手法を提案する。複数のHyperFairハイブリッドレコメンデータを実装することで,私たちのアプローチを実証的に検証し,最先端のフェアレコメンデータと比較する。
論文参考訳（メタデータ） (2020-09-05T05:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。