論文の概要: Aligning Language Models from User Interactions
- arxiv url: http://arxiv.org/abs/2603.12273v1
- Date: Wed, 18 Feb 2026 16:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.196973
- Title: Aligning Language Models from User Interactions
- Title(参考訳): ユーザインタラクションによる言語モデルの調整
- Authors: Thomas Kleine Buening, Jonas Hübotter, Barna Pásztor, Idan Shenfeld, Giorgia Ramponi, Andreas Krause,
- Abstract要約: 本稿では,ユーザインタラクションを直接自己蒸留によって学習する,原則的かつスケーラブルな手法を提案する。
WildChatによる実世界のユーザ会話のトレーニングは、標準アライメントと命令追従ベンチマークを通して言語モデルを改善する。
- 参考スコア(独自算出の注目度): 41.288783114966996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn user interactions are among the most abundant data produced by language models, yet we lack effective methods to learn from them. While typically discarded, these interactions often contain useful information: follow-up user messages may indicate that a response was incorrect, failed to follow an instruction, or did not align with the user's preferences. Importantly, language models are already able to make use of this information in context. After observing a user's follow-up, the same model is often able to revise its behavior. We leverage this ability to propose a principled and scalable method for learning directly from user interactions through self-distillation. By conditioning the model on the user's follow-up message and comparing the resulting token distribution with the original policy, we obtain a target for updating the policy that captures how the model's behavior changes in hindsight. We then distill this hindsight distribution back into the current policy. Remarkably, we show that training on real-world user conversations from WildChat improves language models across standard alignment and instruction-following benchmarks, without regressing other capabilities. The same mechanism enables personalization, allowing models to continually adapt to individual users through interaction without explicit feedback. Our results demonstrate that raw user interactions that arise naturally during deployment enable alignment, personalization, and continual adaptation.
- Abstract(参考訳): マルチターンユーザインタラクションは、言語モデルが生成する最も豊富なデータのひとつですが、それらから学ぶための効果的な方法が欠如しています。
フォローアップされたユーザメッセージは、応答が間違っていたり、命令に従わなかったり、ユーザの好みに合わなかったりする可能性がある。
重要なことに、言語モデルは、既にこの情報をコンテキストで利用することができる。
ユーザのフォローアップを観察した後、同じモデルがその振る舞いを修正できることが多い。
我々はこの能力を生かして,自己蒸留を通じてユーザインタラクションから直接学習する,原則的かつスケーラブルな手法を提案する。
ユーザのフォローアップメッセージにモデルを条件付けし、結果のトークン分布と元のポリシを比較して、モデルの動きが後からどのように変化するかをキャプチャするポリシーを更新するターゲットを得る。
次に、この後見分布を現在の方針に戻す。
注目すべきは、WildChatからの実際のユーザ会話のトレーニングが、他の機能を遅らせることなく、標準アライメントと命令追従ベンチマークを通して言語モデルを改善することである。
同じメカニズムによりパーソナライズが可能となり、明示的なフィードバックなしに対話を通じてモデルが個々のユーザに対して継続的に適応することが可能となる。
この結果から,デプロイメント中に自然に発生する生のユーザインタラクションは,アライメント,パーソナライゼーション,継続的な適応を可能にすることが示された。
関連論文リスト
- Can We Predict the Next Question? A Collaborative Filtering Approach to Modeling User Behavior [16.241726074740082]
大規模言語モデル(LLM)は、言語理解と生成に優れ、高度な対話とレコメンデーションシステムの動力となっている。
本稿では,言語モデリングと行動シーケンスモデリングのギャップを埋めるために,協調フィルタリングによる質問予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T04:01:20Z) - The Era of Real-World Human Interaction: RL from User Conversations [45.2392745984914]
In-the-wild user conversation から直接学習するパラダイムである Reinforcement Learning from Human Interaction (RLHI) を紹介する。
本研究では,(1)ユーザの自然言語フォローアップ応答に基づいて不満足なモデル出力を更新するユーザガイドリライトを用いたRLHI,(2)ユーザベースリワードを用いたRLHIの2つの補完手法を開発する。
論文 参考訳(メタデータ) (2025-09-29T17:50:31Z) - Learning to summarize user information for personalized reinforcement learning from human feedback [19.859785715555013]
Preference Learning Using Summarization (PLUS) は、強化学習を用いて、各ユーザの好みのテキストベースの要約を生成する。
ユーザサマリゼーションモデルと報酬モデルの両方を同時にトレーニングし、オンラインのコ適応ループを作成する。
PLUSはユーザの好みを多様に把握し,報奨モデルの精度を11~77%向上することを示す。
論文 参考訳(メタデータ) (2025-07-17T23:48:51Z) - Human Learning by Model Feedback: The Dynamics of Iterative Prompting
with Midjourney [28.39697076030535]
本稿では,そのようなイテレーションに沿ってユーザプロンプトのダイナミクスを解析する。
これらのイテレーションに沿った特定の特性に対して、プロンプトが予測通りに収束することを示します。
ユーザがモデルの好みに適応する可能性は、さらなるトレーニングのためにユーザデータの再利用に関する懸念を提起する。
論文 参考訳(メタデータ) (2023-11-20T19:28:52Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Modeling Behaviour to Predict User State: Self-Reports as Ground Truth [28.327411414505306]
感情などのユーザ状態を検出する方法は、インタラクティブシステムに有用である。
ユーザ行動と自己報告されたユーザ状態に基づいてトレーニングされたモデルベースのアプローチを,基本的真実として論じる。
論文 参考訳(メタデータ) (2020-07-28T20:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。