論文の概要: User Preference Modeling for Conversational LLM Agents: Weak Rewards from Retrieval-Augmented Interaction
- arxiv url: http://arxiv.org/abs/2603.20939v1
- Date: Sat, 21 Mar 2026 20:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.162646
- Title: User Preference Modeling for Conversational LLM Agents: Weak Rewards from Retrieval-Augmented Interaction
- Title(参考訳): 会話型LLMエージェントのユーザ嗜好モデル:検索・拡張インタラクションからの弱点
- Authors: Yuren Hao, Shuhaib Mehri, ChengXiang Zhai, Dilek Hakkani-Tür,
- Abstract要約: 本稿では,パイプラインに依存しないフリーズバックボーンフレームワークを提案する。
ベクターは、ユーザのフィードバックからの弱いスカラー報酬からオンラインで更新され、ユーザ毎の微調整なしにパーソナライズが可能になる。
- 参考スコア(独自算出の注目度): 26.605145527804066
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are increasingly used as personal assistants, yet most lack a persistent user model, forcing users to repeatedly restate preferences across sessions. We propose Vector-Adapted Retrieval Scoring (VARS), a pipeline-agnostic, frozen-backbone framework that represents each user with long-term and short-term vectors in a shared preference space and uses these vectors to bias retrieval scoring over structured preference memory. The vectors are updated online from weak scalar rewards from users' feedback, enabling personalization without per-user fine-tuning. We evaluate on \textsc{MultiSessionCollab}, an online multi-session collaboration benchmark with rich user preference profiles, across math and code tasks. Under frozen backbones, the main benefit of user-aware retrieval is improved interaction efficiency rather than large gains in raw task accuracy: our full VARS agent achieves the strongest overall performance, matches a strong Reflection baseline in task success, and reduces timeout rate and user effort. The learned long-term vectors also align with cross-user preference overlap, while short-term vectors capture session-specific adaptation, supporting the interpretability of the dual-vector design. Code, model, and data are available at https://github.com/YurenHao0426/VARS.
- Abstract(参考訳): 大規模な言語モデルは、パーソナルアシスタントとしての利用が増えているが、ほとんどは永続的なユーザーモデルが欠如しており、ユーザーはセッション間で繰り返し好みを再開せざるを得ない。
本研究では,パイプラインに依存しないフリーズバックボーンフレームワークであるVector-Adapted Retrieval Scoring (VARS)を提案する。
ベクターは、ユーザのフィードバックからの弱いスカラー報酬からオンラインで更新され、ユーザ毎の微調整なしにパーソナライズが可能になる。
オンラインマルチセッションコラボレーションベンチマークであるtextsc{MultiSessionCollab} を,数学やコードタスクで評価した。
我々の完全なVARSエージェントは、タスク成功における強力なリフレクションベースラインと一致し、タイムアウト率とユーザの労力を削減します。
学習した長期ベクターはユーザ間の嗜好重なり合うが、短期ベクターはセッション固有の適応を捉え、デュアルベクター設計の解釈可能性をサポートする。
コード、モデル、データはhttps://github.com/YurenHao0426/VARSで入手できる。
関連論文リスト
- Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations [3.719862246745416]
本稿では,短期および長期の嗜好を明示的にモデル化するユーザプロファイリング手法を提案する。
LLM-TUPは、いくつかのベースラインに対して大幅に改善されている。
論文 参考訳(メタデータ) (2025-08-11T20:28:24Z) - Async Learned User Embeddings for Ads Delivery Optimization [24.104745716074262]
推薦システムでは、高品質なユーザ埋め込みは微妙な好みを捉え、正確な類似性計算を可能にし、時間とともに変化する好みに適応して関連性を維持することができる。
本稿では,Transformerのような大規模機能学習モジュールを用いて,シーケンスベースのマルチモーダルユーザアクティビティから,毎日数十億のユーザに対する高忠実度ユーザ埋め込みを非同期に学習することを提案する。
論文 参考訳(メタデータ) (2024-06-09T19:35:20Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Sequential Search with Off-Policy Reinforcement Learning [48.88165680363482]
本稿では,RNN学習フレームワークとアテンションモデルからなる,スケーラブルなハイブリッド学習モデルを提案する。
新たな最適化のステップとして、1つのRNNパスに複数の短いユーザシーケンスをトレーニングバッチ内に収める。
また、マルチセッションパーソナライズされた検索ランキングにおける非政治強化学習の利用についても検討する。
論文 参考訳(メタデータ) (2022-02-01T06:52:40Z) - Empowering General-purpose User Representation with Full-life Cycle
Behavior Modeling [11.698166058448555]
本稿では,この課題に対処するために,フルライフサイクルユーザ表現モデル(LURM)と呼ばれる新しいフレームワークを提案する。
LURMは2つのカスケードサブモデルで構成されている: (I) Bag-of-Interests (BoI) は、任意の期間におけるユーザの振る舞いを超高次元のスパースベクトル(例:105)にエンコードする。
SMENは、ユーザ関心の異なる側面を学習できる新しいマルチアンカーモジュールの恩恵を受け、ほぼ次元の削減を実現している。
論文 参考訳(メタデータ) (2021-10-20T08:24:44Z) - From Implicit to Explicit feedback: A deep neural network for modeling
sequential behaviours and long-short term preferences of online users [3.464871689508835]
暗黙的かつ明示的なフィードバックは、有用な推奨のために異なる役割を持つ。
ユーザの嗜好は,長期的利益と短期的利益の組み合わせである,という仮説から導かれる。
論文 参考訳(メタデータ) (2021-07-26T16:59:20Z) - Dynamic Memory based Attention Network for Sequential Recommendation [79.5901228623551]
DMAN(Dynamic Memory-based Attention Network)と呼ばれる新しい連続的推薦モデルを提案する。
長い動作シーケンス全体を一連のサブシーケンスに分割し、モデルをトレーニングし、ユーザの長期的な利益を維持するためにメモリブロックのセットを維持する。
動的メモリに基づいて、ユーザの短期的および長期的関心を明示的に抽出し、組み合わせて効率的な共同推薦を行うことができる。
論文 参考訳(メタデータ) (2021-02-18T11:08:54Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。