論文の概要: Learning Personalized Agents from Human Feedback
- arxiv url: http://arxiv.org/abs/2602.16173v1
- Date: Wed, 18 Feb 2026 04:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.509189
- Title: Learning Personalized Agents from Human Feedback
- Title(参考訳): 人からのフィードバックからパーソナライズされたエージェントを学習する
- Authors: Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini,
- Abstract要約: 連続的なパーソナライズのための枠組みであるPAHF(Personalized Agents from Human Feedback)を紹介する。
PAHFは、ユーザ毎の明示的なメモリを使用して、ライブインタラクションからオンラインで学習する。
ベンチマークは、エージェントが最初の好みをスクラッチから学習し、その後ペルソナシフトに適応する能力を定量化する。
- 参考スコア(独自算出の注目度): 36.47803872623135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.
- Abstract(参考訳): 現代のAIエージェントは強力だが、個々のユーザの好みを進化させる、慣用的に整合しないことが多い。
従来のアプローチは静的なデータセットに依存しており、インタラクション履歴の暗黙の好みモデルをトレーニングするか、外部メモリにユーザプロファイルをエンコードする。
しかし、これらのアプローチは、新しいユーザーと、時間とともに変化する好みに苦しむ。
エージェントは、明示的なユーザ毎のメモリを用いて、ライブインタラクションからオンラインで学習する。
PAHFは、3段階のループを運用する:(1)あいまいさを解決するための事前アクションの明確化、(2)メモリから取得した嗜好のグラウンドングアクション、(3)プライオリティのドリフト時にメモリを更新するためのポストアクションフィードバックの統合。
この能力を評価するため、我々は4段階のプロトコルと2つのベンチマークを具体的操作とオンラインショッピングで開発する。
これらのベンチマークは、エージェントが最初の好みをスクラッチから学習し、その後ペルソナシフトに適応する能力の定量化である。
PAHFは、非メモリベースラインとシングルチャネルベースラインの両方をほぼ高速に学習し、初期パーソナライズエラーを低減し、選好シフトへの迅速な適応を可能にする。
関連論文リスト
- GenCI: Generative Modeling of User Interest Shift via Cohort-based Intent Learning for CTR Prediction [84.0125708499372]
本稿では,クリックスルー率(CTR)予測のためのユーザ嗜好をモデル化するための生成ユーザ意図フレームワークを提案する。
このフレームワークはまず、次の項目の予測目標で訓練された生成モデルを使用して、候補の関心コホートを積極的に生成する。
階層的候補認識ネットワークは、このリッチなコンテキスト信号をランキングステージに注入し、ユーザ履歴とターゲットアイテムの両方に適合するように、クロスアテンションで精製する。
論文 参考訳(メタデータ) (2026-01-26T08:15:04Z) - How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants [25.83552447206606]
大規模言語モデル(LLM)を利用したアシスタントは、最近、ユーザの好みを記録するメモリメカニズムを統合し、よりパーソナライズされ、ユーザに準拠した応答をもたらす。
RPEvalは、パーソナライズされた意図推論データセットとマルチグラニュラリティ評価プロトコルからなるベンチマークである。
RPEvalは、既存のLCMにおける不合理なパーソナライゼーションの広範な現象を明らかにし、エラーパターン解析を通じて、ユーザエクスペリエンスに悪影響を及ぼすことを示す。
本稿では、メモリ利用を実用的な推論プロセスとして扱い、パーソナライズされた情報の選択的統合を可能にするRP-Reasonerを紹介する。
論文 参考訳(メタデータ) (2026-01-23T10:19:48Z) - Lightweight Inference-Time Personalization for Frozen Knowledge Graph Embeddings [0.0]
GatedBiasは知識グラフのための軽量な推論時パーソナライズフレームワークである。
プロファイル固有の機能は、グラフ由来のバイナリゲートと組み合わせて、解釈可能な、パーエンタリティバイアスを生成する。
2つのベンチマークデータセット上でGatedBiasを評価する。
論文 参考訳(メタデータ) (2025-12-26T22:30:37Z) - O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents [60.1848551962911]
O-Memはアクティブユーザプロファイリングに基づく新しいメモリフレームワークである。
O-Memはペルソナ属性とトピック関連コンテキストの階層的検索をサポートする。
論文 参考訳(メタデータ) (2025-11-17T16:55:19Z) - Enabling Personalized Long-term Interactions in LLM-based Agents through Persistent Memory and User Profiles [0.4885400580268118]
大規模言語モデル(LLM)はAIエージェントの中央制御ユニットとしての役割を担っている。
本稿では、パーソナライズされた長期的なインタラクションを実現するために、永続メモリ、動的コーディネーション、自己検証、およびユーザプロファイルの進化を統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T08:22:16Z) - Beyond Static Evaluation: Rethinking the Assessment of Personalized Agent Adaptability in Information Retrieval [12.058221341033835]
適応型パーソナライゼーションにおける評価を再考するための概念レンズを提案する。
このレンズは,(1)時間的に進化する嗜好モデルを用いたペルソナベースユーザシミュレーション,(2)参照インタビューに触発されてコンテキスト内での嗜好を抽出する構造化エリケーションプロトコル,(3)エージェントの行動がセッションやタスク間でどのように改善されるかを測定する適応型評価メカニズムの3つを中心に構成されている。
論文 参考訳(メタデータ) (2025-10-05T00:35:37Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。