論文の概要: From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System
- arxiv url: http://arxiv.org/abs/2508.15811v1
- Date: Fri, 15 Aug 2025 10:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.080184
- Title: From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System
- Title(参考訳): クリックから推論へ:会話システムにおける生成的クエリ提案のための多段階アライメントフレームワーク
- Authors: Junhao Yin, Haolin Wang, Peng Bao, Ju Xu, Yongliang Wang,
- Abstract要約: 生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 11.373145953200137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative query suggestion using large language models offers a powerful way to enhance conversational systems, but aligning outputs with nuanced user preferences remains a critical challenge. To address this, we introduce a multi-stage framework designed for progressive alignment between the generation policy and user intent. Our pipeline begins with prompt engineering as a cold-start strategy, followed by the Supervised Fine-Tuning stage, in which we introduce a distillation method on click logs to create a robust foundational model. To better model user preferences while capturing their inherent uncertainty, we develop a Gaussian Reward Model (GaRM) that represents user preferences as probability distributions rather than point estimates. Finally, we employ reinforcement learning to align the generation policy with these preferences, guided by a composite reward function that integrates GaRM with auxiliary heuristics to mitigate reward hacking. To maintain training stability, this process is enhanced by a novel out-of-distribution regularization method and a two-stage reward fusion technique. Extensive experiments demonstrate that our framework significantly outperforms baselines on both automatic and human evaluations and yields a 34\% relative increase in user engagement as measured by click-through rate in live A/B tests.
- Abstract(参考訳): 大規模言語モデルを用いた生成的クエリ提案は、会話システムを強化する強力な方法を提供するが、出力とユーザ好みの微妙な調整は依然として重要な課題である。
そこで本稿では,生成ポリシーとユーザ意図の漸進的整合性を考慮した多段階フレームワークを提案する。
当社のパイプラインは、コールドスタート戦略としての迅速なエンジニアリングから始まり、続いてSupervised Fine-Tuningステージで、ログをクリックする蒸留手法を導入し、堅牢な基礎モデルを構築します。
ユーザ嗜好のモデル化に際し,不確実性を捉えるとともに,ユーザ嗜好をポイント推定ではなく確率分布として表現するガウス・リワードモデル(GaRM)を開発した。
最後に,GARMを補助的ヒューリスティックと統合して報酬ハッキングを緩和する複合報酬関数によって誘導される,これらの嗜好と生成ポリシーを整合させる強化学習を採用する。
トレーニング安定性を維持するため、新規なアウト・オブ・ディストリビューション正規化法と2段階の報酬融合技術により、この工程を向上する。
大規模な実験により,我々のフレームワークは,自動評価と人的評価の両方において,ベースラインを著しく上回り,ライブA/Bテストにおけるクリックスルー率によるユーザエンゲージメントの34倍の相対的な増加をもたらすことが示された。
関連論文リスト
- Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Breaking the Likelihood Trap: Consistent Generative Recommendation with Graph-structured Model [8.011282322871958]
推薦システムの最終段階として、リグレードはリアルタイムの推論、正確性、多様性を要求する。
本稿では,新しい生成的推薦フレームワークであるConsistent Graph-structured Generative Recommendation (Congrats)を提案する。
大規模なビデオ共有アプリKuaishouは、毎日3億人のアクティブユーザーを抱えている。
論文 参考訳(メタデータ) (2025-10-11T09:21:01Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations [22.48125906976824]
カスケード型組織的ビ表現型ジェネリック検索フレームワークを導入し,カスケード処理を通じてスパース意味IDと高密度ベクトルを統合する。
本手法は,これらの表現をまずスパースIDを生成して交互に生成し,高密度ベクトルの生成を支援する条件として機能する。
推論の間、COBRAは粗大な戦略を採用し、スパースID生成から始まり、生成モデルを介してそれらを密度の高いベクトルに精製する。
論文 参考訳(メタデータ) (2025-03-04T10:00:05Z) - OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [9.99840965933561]
ケースドラーニングフレームワークを統一的な生成モデルで置き換えるOneRecを提案する。
1) ユーザの履歴行動シーケンスをエンコードし、ユーザが興味を持っているかもしれない動画を徐々にデコードするエンコーダ・デコーダ構造。
論文 参考訳(メタデータ) (2025-02-26T09:25:10Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Towards Automatic Sampling of User Behaviors for Sequential Recommender Systems [5.46875780473223]
本稿では,一様でない過去の行動を扱うために,AutoSAMというシーケンシャルレコメンデーションのための新しい自動サンプリングフレームワークを提案する。
ベンチマークレコメンデーションモデルと4つの実世界のデータセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2023-11-01T09:25:21Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。