論文の概要: The Era of Real-World Human Interaction: RL from User Conversations
- arxiv url: http://arxiv.org/abs/2509.25137v1
- Date: Mon, 29 Sep 2025 17:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.1853
- Title: The Era of Real-World Human Interaction: RL from User Conversations
- Title(参考訳): 実世界のヒューマンインタラクションの時代: ユーザ会話からのRL
- Authors: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston,
- Abstract要約: In-the-wild user conversation から直接学習するパラダイムである Reinforcement Learning from Human Interaction (RLHI) を紹介する。
本研究では,(1)ユーザの自然言語フォローアップ応答に基づいて不満足なモデル出力を更新するユーザガイドリライトを用いたRLHI,(2)ユーザベースリワードを用いたRLHIの2つの補完手法を開発する。
- 参考スコア(独自算出の注目度): 45.2392745984914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.
- Abstract(参考訳): 連続モデルの改善と多面的アライメントを達成するためには、将来のモデルは人間の自然な相互作用から学ぶ必要があると仮定する。
現在の会話モデルは、アノテートされた専門家による人間のフィードバックによって整列される。
そこで本研究では,現在開発中のユーザ会話から直接学習するパラダイムであるReinforcement Learning from Human Interaction(RLHI)を紹介する。
本研究では,(1)ユーザの自然言語フォローアップ応答に基づいて不満足なモデル出力を更新するユーザガイドリライトを用いたRLHI,(2)ユーザベースリワードを用いたRLHI,(2)ユーザの長期的なインタラクション履歴(終身ペルソナ)の知識に基づいて,報酬モデルを通じて学習するユーザベースリライトによるRLHI,の2つの補完手法を開発する。
これらの手法は,長期的ユーザペルソナをペルソナ条件による選好最適化を通じてターンレベルの選好にリンクする。
WildChatから派生した会話に基づいて訓練され、どちらのRLHI変種もパーソナライゼーションと命令フォローにおいて強いベースラインを上回り、同様のフィードバックによって推論ベンチマークのパフォーマンスが向上する。
これらの結果は、人間の有機的相互作用が、パーソナライズされたアライメントのためのスケーラブルで効果的な監視を提供することを示唆している。
関連論文リスト
- Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
本稿では,好奇心に基づく固有報酬をマルチターンRLHFに組み込むために,ユーザモデルを活用することを提案する。
この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。
提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
論文 参考訳(メタデータ) (2025-04-04T06:35:02Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - Personalized Language Modeling from Personalized Human Feedback [45.16986573937782]
パーソナライズされた大規模言語モデル(LLM)は、個々のユーザの好みに応答するように設計されている。
個人の好みを捉えるために軽量なユーザモデルを利用する効率的なフレームワークであるPersonalized-RLHFを提案する。
P-RLHF を用いて学習したパーソナライズされた LLM は,個々のユーザの好みとより密に一致した応答を生成する。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。