論文の概要: Learning from Natural Language Feedback for Personalized Question Answering
- arxiv url: http://arxiv.org/abs/2508.10695v1
- Date: Thu, 14 Aug 2025 14:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.360481
- Title: Learning from Natural Language Feedback for Personalized Question Answering
- Title(参考訳): パーソナライズされた質問応答のための自然言語フィードバックからの学習
- Authors: Alireza Salemi, Hamed Zamani,
- Abstract要約: パーソナライゼーションは、言語技術の有効性とユーザ満足度を高めるために不可欠である。
大規模言語モデル(LLM)をパーソナライズするための現在のアプローチは、しばしば検索強化世代(RAG)に依存している。
我々は、スカラー報酬を自然言語フィードバック(NLF)に置き換える、パーソナライズされた応答生成のための新しいフレームワークであるVacを紹介する。
- 参考スコア(独自算出の注目度): 21.115495457454365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalization is crucial for enhancing both the effectiveness and user satisfaction of language technologies, particularly in information-seeking tasks like question answering. Current approaches for personalizing large language models (LLMs) often rely on retrieval-augmented generation (RAG), followed by reinforcement learning with scalar reward signals to teach models how to use retrieved personal context. We believe that these scalar rewards sometimes provide weak, non-instructive feedback, limiting learning efficiency and personalization quality. We introduce VAC, a novel framework for personalized response generation that replaces scalar rewards with natural language feedback (NLF) that are generated conditioned on the user profiles and the question narratives. NLF serves as a rich and actionable supervision signal, allowing the policy model to iteratively refine its outputs and internalize effective personalization strategies. Training alternates between optimizing the feedback model and fine-tuning the policy model on the improved responses, resulting in a policy model that no longer requires feedback at inference. Evaluation on the LaMP-QA benchmark that consists of three diverse domains demonstrates consistent and significant improvements over the state-of-the-art results. Human evaluations further confirm the superior quality of the generated responses. These results demonstrate that NLF provides more effective signals for optimizing personalized question answering.
- Abstract(参考訳): パーソナライゼーションは、特に質問応答のような情報検索タスクにおいて、言語技術の有効性とユーザ満足度の向上に不可欠である。
大規模言語モデル(LLM)をパーソナライズするための現在のアプローチは、しばしば検索強化世代(RAG)に依存し、続いて、検索された個人コンテキストの使い方を教えるためのスカラー報酬信号を用いた強化学習が続く。
これらのスカラー報酬は、学習効率とパーソナライズ品質を制限し、弱く非インストラクティブなフィードバックをもたらすことがあると信じている。
本稿では,スカラー報酬を自然言語フィードバック(NLF)に置き換えるパーソナライズされた応答生成のための新しいフレームワークであるVACを紹介する。
NLFはリッチで行動可能な監視信号として機能し、ポリシーモデルがその出力を反復的に洗練し、効果的なパーソナライズ戦略を内包することを可能にする。
トレーニングは、フィードバックモデルを最適化することと、改善されたレスポンスに対するポリシーモデルを微調整することの間に交互に行われる。
3つの異なるドメインからなるLaMP-QAベンチマークの評価は、最先端の結果よりも一貫性と大幅な改善を示している。
人間の評価は、生成した応答の優れた品質をさらに確認する。
これらの結果は、NLFがパーソナライズされた質問応答を最適化するためにより効果的な信号を提供することを示す。
関連論文リスト
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Aligning Language Models Using Follow-up Likelihood as Reward Signal [40.388526412214276]
そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
論文 参考訳(メタデータ) (2024-09-20T23:47:25Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。