Fugu-MT 論文翻訳(概要): PreferRec: Learning and Transferring Pareto Preferences for Multi-objective Re-ranking

論文の概要: PreferRec: Learning and Transferring Pareto Preferences for Multi-objective Re-ranking

arxiv url: http://arxiv.org/abs/2603.22073v1
Date: Mon, 23 Mar 2026 15:04:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.742675
Title: PreferRec: Learning and Transferring Pareto Preferences for Multi-objective Re-ranking
Title（参考訳）: PreferRec:多目的再評価のためのパレートの学習と伝達
Authors: Wei Zhou, Wuyang Li, Junkai Ji, Xueliang Li, Wenjing Hong, Zexuan Zhu, Xing Tang, Xiuqiang He,
Abstract要約: PreferRecは、ユーザ間でParetoの好みを明示的にモデル化し、転送する新しいフレームワークである。具体的には、PreferRecは複数の競合する目標間のユーザ固有のトレードオフをインテントレベルで捉えることを目的としている。 Knowledge-Guided Transferは、効率的なユーザ間の知識伝達を容易にする。
参考スコア（独自算出の注目度）: 28.35373733496984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-objective re-ranking has become a critical component of modern multi-stage recommender systems, as it tasked to balance multiple conflicting objectives such as accuracy, diversity, and fairness. Existing multi-objective re-ranking methods typically optimize aggregate objectives at the item level using static or handcrafted preference weights. This design overlooks that users inherently exhibit Pareto-optimal preferences at the intent level, reflecting personalized trade-offs among objectives rather than fixed weight combinations. Moreover, most approaches treat re-ranking task for each user as an isolated problem, and repeatedly learn the preferences from scratch. Such a paradigm not only incurs high computational cost, but also ignores the fact that users often share similar preference trade-off structures across objectives. Inspired by the existence of homogeneous multi-objective optimization spaces where Pareto-optimal patterns are transferable, we propose PreferRec, a novel framework that explicitly models and transfers Pareto preferences across users. Specifically, PreferRec is built upon three tightly coupled components: Preference-Aware Pareto Learning aims to capture user intrinsic trade-offs among multiple conflicting objectives at the intent level. By learning Pareto preference representations from re-ranking populations, this component explicitly models how users prioritize different objectives under diverse contexts. Knowledge-Guided Transfer facilitates efficient cross-user knowledge transfer by distilling shared optimization patterns across homogeneous optimization spaces. The transferred knowledge is then used to guide solution selection and personalized re-ranking, biasing the optimization process toward high-quality regions of the Pareto front while preserving user-specific preference characteristics.
Abstract（参考訳）: 多目的再ランクは、正確性、多様性、公平性といった複数の矛盾する目標のバランスをとることを目的として、現代の多段階推薦システムにおいて重要な要素となっている。既存の多目的再分類手法は、通常、静的または手作りの選好重みを用いてアイテムレベルでの集約目的を最適化する。このデザインは、ユーザーが本質的にPareto-Optimalの好みを意図レベルで表示し、固定重量の組み合わせではなく、目的間の個人化されたトレードオフを反映している。さらに、ほとんどのアプローチでは、各ユーザのタスクの再ランク付けを独立した問題として扱い、スクラッチから繰り返し好みを学習する。このようなパラダイムは高い計算コストを発生させるだけでなく、ユーザーが同じ好みのトレードオフ構造を共有しているという事実も無視する。パレート最適パターンの転送が可能な同種多目的最適化空間の存在に触発されて,ユーザ間でパレートの好みを明示的にモデル化し伝達する新しいフレームワークであるPreferRecを提案する。 PreferRecは3つの密結合されたコンポーネントの上に構築されている。 Preference-Aware Pareto Learningは、複数の矛盾する目標間のユーザ固有のトレードオフを意図レベルで捉えることを目的としています。このコンポーネントは、Paretoの選好表現を再ランク付けされた集団から学習することにより、ユーザがさまざまなコンテキスト下で異なる目的を優先順位付けする方法を明示的にモデル化する。 Knowledge-Guided Transferは、均質な最適化空間をまたいだ共有最適化パターンを蒸留することにより、効率的なユーザ間知識伝達を容易にする。転送された知識は、ソリューションの選択とパーソナライズされた再ランクを導出し、最適化プロセスをユーザ固有の嗜好特性を維持しつつ、Paretoフロントの高品質な領域に偏り付ける。

関連論文リスト

Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
Tree of Preferences for Diversified Recommendation [54.183647833064136]
データバイアスの観点から、多種多様な推薦について検討する。本研究では,世界知識を活用したゼロショット推論における大規模言語モデル(LLM)の卓越した性能に着想を得て,新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-12-24T04:13:17Z)
LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文参考訳（メタデータ） (2025-04-20T01:16:24Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Provably Efficient Multi-Objective Bandit Algorithms under Preference-Centric Customization [24.533662423325943]
明示的なユーザ嗜好の存在下で、嗜好を意識したMO-MABフレームワークについて検討する。これは、明示的なユーザの好みを持つカスタマイズされたMO-MAB最適化に関する最初の理論的研究である。
論文参考訳（メタデータ） (2025-02-19T06:06:13Z)
Uncertain Multi-Objective Recommendation via Orthogonal Meta-Learning Enhanced Bayesian Optimization [30.031396809114625]
本稿では,ルールベースの精度駆動システムから行動認識,不確実な多目的RSに至るまで,RSの自律性を5つの異なるレベルに分類する新しい枠組みを提案する。個人の好みに基づいて複数の目的を動的に識別し、最適化し、より倫理的でインテリジェントなユーザー中心のレコメンデーションを促進するアプローチを提案する。
論文参考訳（メタデータ） (2025-02-18T08:10:09Z)
Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文参考訳（メタデータ） (2024-11-01T11:49:33Z)
Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts [38.95012734839997]
多目的アライメントは、大きな言語モデルの異なるアライメント目標のバランスと制御を目的としている。 MCA(Multi-objective Contrastive Alignemnt)を提案する。
論文参考訳（メタデータ） (2024-08-09T14:36:42Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。 MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文参考訳（メタデータ） (2023-10-05T17:35:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。