論文の概要: Training Proactive and Personalized LLM Agents
- arxiv url: http://arxiv.org/abs/2511.02208v1
- Date: Tue, 04 Nov 2025 02:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.785005
- Title: Training Proactive and Personalized LLM Agents
- Title(参考訳): プロアクティブおよびパーソナライズされたLDMエージェントの訓練
- Authors: Weiwei Sun, Xuhui Zhou, Weihua Du, Xingyao Wang, Sean Welleck, Graham Neubig, Maarten Sap, Yiming Yang,
- Abstract要約: 生産性, 積極性, パーソナライゼーションの3つの側面を共同で最適化する多目的強化学習手法である PPP を導入する。
PPP訓練剤はGPT-5(平均21.6)などの強いベースラインよりも大幅に改善されている。
この研究は、ユーザ中心のインタラクションを明示的に最適化することが、実用的で効果的なAIエージェントを構築する上で重要であることを実証している。
- 参考スコア(独自算出の注目度): 107.57805582180315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing work focuses primarily on task success, we argue that effective real-world agents require optimizing three dimensions: productivity (task completion), proactivity (asking essential questions), and personalization (adapting to diverse user preferences). We introduce UserVille, an interactive environment with LLM-based user simulators enabling diverse, configurable user preferences. Leveraging UserVille, we introduce PPP, a multi-objective reinforcement learning approach that jointly optimizes all three dimensions: Productivity, Proactivity, and Personalization. Experiments on software engineering and deep research tasks show that agents trained with PPP achieve substantial improvements over strong baselines such as GPT-5 (+21.6 on average), demonstrating the ability to ask strategic clarifying questions, adapt to unseen user preferences, and improve task success through better interaction. This work demonstrates that explicitly optimizing for user-centered interaction is critical for building practical and effective AI agents.
- Abstract(参考訳): 既存の作業はタスクの成功に重点を置いているが、実世界の効果的なエージェントは生産性(タスク完了)、積極性(本質的な疑問に答える)、パーソナライズ(多様なユーザの好みに適応)という3つの次元を最適化する必要があると論じている。
LLMベースのユーザシミュレータを用いた対話型環境であるUserVilleを導入する。
UserVilleを活用することで、生産性、活動性、パーソナライゼーションの3つの側面を共同で最適化する多目的強化学習アプローチであるPPPを導入する。
ソフトウェアエンジニアリングとディープリサーチタスクの実験によると、PPPで訓練されたエージェントは、GPT-5(平均で+21.6)のような強力なベースラインよりも大幅に改善されている。
この研究は、ユーザ中心のインタラクションを明示的に最適化することが、実用的で効果的なAIエージェントを構築する上で重要であることを実証している。
関連論文リスト
- UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Evaluating the Effectiveness of Large Language Models in Solving Simple Programming Tasks: A User-Centered Study [1.0467092641687232]
本研究では,ChatGPT-4oとのインタラクションスタイルの違いが,単純なプログラミングタスクにおけるユーザパフォーマンスに与える影響について検討する。
15人の高校生が3種類のモデルで3つの問題を完成させた。
論文 参考訳(メタデータ) (2025-07-05T13:52:31Z) - Thought-Augmented Planning for LLM-Powered Interactive Recommender Agent [56.61028117645315]
本稿では,蒸留した思考パターンを通じて複雑なユーザ意図に対処する,思考増強型対話型推薦エージェントシステム(TAIRA)を提案する。
具体的には、ユーザニーズを分解し、サブタスクを計画することでレコメンデーションタスクを編成するマネージャエージェントを備えたLLM方式のマルチエージェントシステムとして設計されている。
複数のデータセットにまたがる包括的な実験により、IRAは既存の手法に比べて大幅に性能が向上した。
論文 参考訳(メタデータ) (2025-06-30T03:15:50Z) - Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning [31.785493263807684]
本稿では,ユーザ特性とフィードバックをモデル化する内在的ユーザワールドモデルを組み込んだUDP(User-Tailored Dialogue Policy Planning)フレームワークを提案する。
UDP は,(1) ユーザプロファイルを動的に推測するために拡散モデルを用いたユーザペルソナポートレイティング,(2) ユーザフィードバック予測, ブラウン橋にインスパイアされた予測器を用いたユーザ反応予測,(3) ユーザ対応型ポリシープランニング, これらの洞察の統合による応答戦略の最適化の3段階で動作する。
論文 参考訳(メタデータ) (2025-04-18T11:48:55Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - From User Surveys to Telemetry-Driven AI Agents: Exploring the Potential of Personalized Productivity Solutions [21.79433247723466]
情報労働者は、現代の職場で生産性の課題にますます苦労している。
エンタープライズツールを通じて生産性のメトリクスが利用可能であるにもかかわらず、労働者はしばしばこのデータを実行可能な洞察に変換するのに失敗する。
ユーザのニーズに合わせたAIベースの生産性エージェントを通じて、これらの課題に対処するための包括的でユーザ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-17T04:20:10Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。