Fugu-MT 論文翻訳(概要): From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning

論文の概要: From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2605.23382v1
Date: Fri, 22 May 2026 08:50:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.269799
Title: From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning
Title（参考訳）: 正しさから選好へ:個人化エージェント強化学習のためのフレームワーク
Authors: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang,
Abstract要約: 本稿では,学習時間最適化にパーソナライズを組み込んだAgentic RLフレームワークを提案する。私たちのフレームワークは、強いメモリとRLベースラインを一貫して上回ります。
参考スコア（独自算出の注目度）: 15.774638671062393
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic reinforcement learning (Agentic RL) has achieved strong progress in tasks with clear success signals. However, many real-world agent applications require user-conditioned behavior: the same query may call for different planning strategies and tool-use decisions across users. This setting raises key challenges: generic rewards cannot capture heterogeneous user preferences, observed behaviors are entangled with conformity effects, and flat memories cannot support personalized skill retrieval. To this end, we propose a unified personalized Agentic RL framework that embeds personalization into training-time optimization. At its core is \emph{Personalized Anchor Reward-Decoupled Policy Optimization} (\textbf{PARPO}), which decouples generic task-quality rewards from personalized preference rewards and uses user-specific anchors to stabilize learning under heterogeneous reward scales. We further introduce a two-stage preference-disentangled reward model and \emph{Preference-Aligned Skill Evolution Graph Memory} (\textbf{PSGM}) for personalized supervision and preference-aligned skill retrieval. Together, they form a closed loop of preference identification, policy optimization, and structured skill accumulation. Experiments on ETAPP, ETAPP-Hard, and SJAgent show that our framework consistently outperforms strong memory and RL baselines. Code and data are included in the supplementary materials.
Abstract（参考訳）: エージェント強化学習(Agentic RL)は、明確な成功信号を持つタスクにおいて、大きな進歩を遂げている。しかし、多くの現実世界のエージェントアプリケーションは、ユーザー条件の振る舞いを必要とする:同じクエリは、ユーザ間で異なる計画戦略やツール使用の決定を要求するかもしれない。一般的な報酬は不均一なユーザの好みを捉えることができず、観察された振る舞いは適合性の影響で絡まっており、フラットメモリはパーソナライズされたスキル検索をサポートしない。そこで本研究では,学習時間最適化にパーソナライズを組み込んだAgentic RLフレームワークを提案する。ここでは、パーソナライズされた選好報酬から一般的なタスク品質報酬を分離し、ユーザ固有のアンカーを使用して、異種報酬スケールでの学習を安定化させる。さらに,2段階の選好不整合報酬モデルと,パーソナライズされた監視と嗜好に整合したスキル検索のためのemph{Preference-Aligned Skill Evolution Graph Memory} (\textbf{PSGM})を導入する。それらは共に、好みの識別、ポリシー最適化、構造化されたスキル蓄積の閉ループを形成する。 ETAPP、ETAPP-Hard、SJAgentの実験は、我々のフレームワークが強いメモリとRLベースラインを一貫して上回っていることを示している。補充材料にはコードとデータが含まれている。

関連論文リスト

Beyond One-Size-Fits-All: Adaptive Test-Time Augmentation for Sequential Recommendation [3.873910497341511]
テスト時間の増大は、シーケンシャルなレコメンデーションにおいてデータの分散を緩和するための有望なアプローチとなっている。既存のTTAメソッドは通常、一様でユーザに依存しない拡張戦略に依存している。 AdaTTAはシーケンスごとにシーケンス固有の拡張演算子を選択することを学習する。
論文参考訳（メタデータ） (2026-04-17T14:56:29Z)
FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文参考訳（メタデータ） (2026-03-20T08:24:49Z)
Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
FedUTR: Federated Recommendation with Augmented Universal Textual Representation for Sparse Interaction Scenarios [58.33672784127872]
フェデレーションレコメンデーション(FR)は、デバイス上のプライバシ保護パラダイムとして登場した。本稿では,対話行動の補完として項目文表現を取り入れたFedUTRという新しい手法を提案する。提案手法は,SOTAベースラインと比較して,全データセットの最大59%の改善を達成し,優れた性能を実現する。
論文参考訳（メタデータ） (2026-01-29T08:55:19Z)
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment [55.86333374784959]
これらの制約に対処するには、データの適合からユーザの好みを学習し、嗜好適応のプロセスを学ぶためのパラダイムシフトが必要である、と我々は主張する。メタ学習問題としてパーソナライズされた報酬モデルを変更するメタリワードモデリング(MRM)を提案する。 MRMはパーソナライズを強化し、ユーザの堅牢性を向上し、ベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-01-26T17:55:52Z)
Optimizing User Profiles via Contextual Bandits for Retrieval-Augmented LLM Personalization [27.490675380289318]
関連性はユーティリティの信頼性の低いプロキシとして機能する、と私たちは主張する。 Llm pErsonalization のために UseR Profiles をoPtimizeする文脈的帯域幅フレームワーク PURPLE を提案する。 PURPLEは、最も関連性の高いレコードの欲求選択とは対照的に、プロファイル構築をセット生成プロセスとして扱う。
論文参考訳（メタデータ） (2026-01-17T15:05:36Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Proxy Model-Guided Reinforcement Learning for Client Selection in Federated Recommendation [41.93915547763831]
フェデレートされたレコメンデーターシステムは、ユーザの生データを公開せずにパーソナライズされたレコメンデーションサービスを可能にする、有望なプライバシー保護パラダイムとして登場した。既存のFedRSフレームワークのほとんどは、トレーニングラウンド毎に完全にランダムなクライアント選択戦略を採用しています。本稿では,クライアント選択に適したプロキシモデル誘導強化学習フレームワークであるProxyRL-FRSを提案する。
論文参考訳（メタデータ） (2025-08-14T07:03:39Z)
LoRe: Personalizing LLMs via Low-Rank Reward Modeling [47.12507639759984]
本稿では,低ランク嗜好モデルを利用してユーザ固有の報酬関数を効率的に学習し,一般化する新しいフレームワークを提案する。提案手法を複数の選好データセット上で検証し、未確認ユーザに対して優れた一般化を示し、選好予測タスクの精度を改善した。
論文参考訳（メタデータ） (2025-04-20T01:16:24Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。