論文の概要: From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System
- arxiv url: http://arxiv.org/abs/2508.15811v1
- Date: Fri, 15 Aug 2025 10:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.080184
- Title: From Clicks to Preference: A Multi-stage Alignment Framework for Generative Query Suggestion in Conversational System
- Title(参考訳): クリックから推論へ:会話システムにおける生成的クエリ提案のための多段階アライメントフレームワーク
- Authors: Junhao Yin, Haolin Wang, Peng Bao, Ju Xu, Yongliang Wang,
- Abstract要約: 生成ポリシーとユーザ意図のプログレッシブアライメントを目的とした多段階フレームワークを提案する。
我々の枠組みは, 自動評価と人的評価の両方において, ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 11.373145953200137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative query suggestion using large language models offers a powerful way to enhance conversational systems, but aligning outputs with nuanced user preferences remains a critical challenge. To address this, we introduce a multi-stage framework designed for progressive alignment between the generation policy and user intent. Our pipeline begins with prompt engineering as a cold-start strategy, followed by the Supervised Fine-Tuning stage, in which we introduce a distillation method on click logs to create a robust foundational model. To better model user preferences while capturing their inherent uncertainty, we develop a Gaussian Reward Model (GaRM) that represents user preferences as probability distributions rather than point estimates. Finally, we employ reinforcement learning to align the generation policy with these preferences, guided by a composite reward function that integrates GaRM with auxiliary heuristics to mitigate reward hacking. To maintain training stability, this process is enhanced by a novel out-of-distribution regularization method and a two-stage reward fusion technique. Extensive experiments demonstrate that our framework significantly outperforms baselines on both automatic and human evaluations and yields a 34\% relative increase in user engagement as measured by click-through rate in live A/B tests.
- Abstract(参考訳): 大規模言語モデルを用いた生成的クエリ提案は、会話システムを強化する強力な方法を提供するが、出力とユーザ好みの微妙な調整は依然として重要な課題である。
そこで本稿では,生成ポリシーとユーザ意図の漸進的整合性を考慮した多段階フレームワークを提案する。
当社のパイプラインは、コールドスタート戦略としての迅速なエンジニアリングから始まり、続いてSupervised Fine-Tuningステージで、ログをクリックする蒸留手法を導入し、堅牢な基礎モデルを構築します。
ユーザ嗜好のモデル化に際し,不確実性を捉えるとともに,ユーザ嗜好をポイント推定ではなく確率分布として表現するガウス・リワードモデル(GaRM)を開発した。
最後に,GARMを補助的ヒューリスティックと統合して報酬ハッキングを緩和する複合報酬関数によって誘導される,これらの嗜好と生成ポリシーを整合させる強化学習を採用する。
トレーニング安定性を維持するため、新規なアウト・オブ・ディストリビューション正規化法と2段階の報酬融合技術により、この工程を向上する。
大規模な実験により,我々のフレームワークは,自動評価と人的評価の両方において,ベースラインを著しく上回り,ライブA/Bテストにおけるクリックスルー率によるユーザエンゲージメントの34倍の相対的な増加をもたらすことが示された。
関連論文リスト
- Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations [22.48125906976824]
カスケード型組織的ビ表現型ジェネリック検索フレームワークを導入し,カスケード処理を通じてスパース意味IDと高密度ベクトルを統合する。
本手法は,これらの表現をまずスパースIDを生成して交互に生成し,高密度ベクトルの生成を支援する条件として機能する。
推論の間、COBRAは粗大な戦略を採用し、スパースID生成から始まり、生成モデルを介してそれらを密度の高いベクトルに精製する。
論文 参考訳(メタデータ) (2025-03-04T10:00:05Z) - OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment [9.99840965933561]
ケースドラーニングフレームワークを統一的な生成モデルで置き換えるOneRecを提案する。
1) ユーザの履歴行動シーケンスをエンコードし、ユーザが興味を持っているかもしれない動画を徐々にデコードするエンコーダ・デコーダ構造。
論文 参考訳(メタデータ) (2025-02-26T09:25:10Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Towards Automatic Sampling of User Behaviors for Sequential Recommender Systems [5.46875780473223]
本稿では,一様でない過去の行動を扱うために,AutoSAMというシーケンシャルレコメンデーションのための新しい自動サンプリングフレームワークを提案する。
ベンチマークレコメンデーションモデルと4つの実世界のデータセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2023-11-01T09:25:21Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。