Fugu-MT 論文翻訳(概要): Training LLMs with Reinforcement Learning for Intent-Aware Personalized Question Answering

論文の概要: Training LLMs with Reinforcement Learning for Intent-Aware Personalized Question Answering

arxiv url: http://arxiv.org/abs/2605.12645v1
Date: Tue, 12 May 2026 18:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.6193
Title: Training LLMs with Reinforcement Learning for Intent-Aware Personalized Question Answering
Title（参考訳）: 直感的パーソナライズされた質問応答に対する強化学習によるLLMの訓練
Authors: Maryam Amirizaniani, Benjamin Charles Germain Lee, Jevin West, Nicholas Weber,
Abstract要約: Intent-Aware Personalization (IAP)は、シングルターン質問から直接暗黙のユーザ意図を推論するためにモデルを訓練する。 IAPは、パーソナライズされた意図に基づく回答を生成するためのタグベースのスキーマを通じて、ユーザの意図を思考ステップに組み込む。 IAPは、LaMP-QAベンチマークでの実験において、すべてのベースラインを一貫して上回っている。
参考スコア（独自算出の注目度）: 6.156855333798949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective personalized question answering (PQA) in language models requires grounding responses in the user's underlying intent, where intent refers to the implicit ``why'' behind a query beyond its explicit wording. However, existing approaches to intent-aware personalization rely on multi-turn conversational context or rich user profiles, and do not explicitly model user intent during the reasoning process. This limits their effectiveness in single-turn settings, where the user's latent goal must be inferred from minimal input and integrated into the thinking and reasoning process. To bridge this gap, we propose IAP (Intent-Aware Personalization), a reinforcement learning framework that trains models to infer implicit user intent directly from a single-turn question and incorporate it into thinking steps through a tag-based schema for generating personalized, intent-grounded answers. By optimizing intent-aware answer trajectories under a personalized reward function, IAP reinforces generation paths that make implicit user intent explicit and produce responses that better align with the user's underlying goal. Through experiments on the LaMP-QA benchmark across six models, IAP consistently outperforms all baselines, achieving an average macro-score gain of around 7.5\% over the strongest competitor, demonstrating that modeling implicit user intent within the training objective is a promising direction for PQA.
Abstract（参考訳）: 言語モデルにおける効果的なパーソナライズされた質問応答(PQA)は、ユーザーの根底にある意図に答える必要がある。しかし、意図認識型パーソナライゼーションへの既存のアプローチは、多ターン会話コンテキストやリッチユーザプロファイルに依存しており、推論プロセス中にユーザ意図を明示的にモデル化していない。これにより、ユーザの潜在目標を最小限の入力から推論し、思考と推論プロセスに統合する必要がある、シングルターン設定での効率が制限される。このギャップを埋めるために、単ターン質問から直接暗黙のユーザ意図を推論するようにモデルを訓練する強化学習フレームワークIAP(Intent-Aware Personalization)を提案する。 IAPは、パーソナライズされた報酬関数の下で、インテントを意識した回答トラジェクトリを最適化することにより、暗黙のユーザ意図を明確にする生成パスを強化し、ユーザの基本的な目標に適合する応答を生成する。 6つのモデルにわたるLaMP-QAベンチマークの実験を通じて、IAPは一貫してすべてのベースラインを上回り、最強の競争相手に対して平均7.5%のマクロスコアゲインを達成し、トレーニング目標における暗黙のユーザ意図のモデリングがPQAにとって有望な方向であることを実証した。

関連論文リスト

IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference [22.214499732123173]
IntProは、検索条件付きインテント推論を通じて個々のユーザへの適応を学ぶプロキシエージェントである。 IntProは、効果的なコンテキスト認識推論機能によって、パフォーマンスを強く理解することを示す。
論文参考訳（メタデータ） (2026-02-10T07:20:58Z)
DiscoverLLM: From Executing Intents to Discovering Them [30.142994019166796]
DiscoverLLMは,ユーザが意図を形作り,発見するのを助けるために,大規模言語モデルを訓練するフレームワークである。結果モデルでは、意図が不明な場合には、適応的に(選択肢を探求する)ことで、ユーザとのコラボレーションを学ぶ。 75人の被験者を対象にしたユーザスタディにおいて、DiscoverLLMはベースラインと比較して会話の満足度と効率を改善した。
論文参考訳（メタデータ） (2026-02-03T11:51:46Z)
Learning Steerable Clarification Policies with Collaborative Self-play [67.67872810596839]
不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
論文参考訳（メタデータ） (2025-12-03T18:49:54Z)
IPQA: A Benchmark for Core Intent Identification in Personalized Question Answering [13.337602043970051]
情報ニーズを満たすために回答を選択する際にユーザが優先する意図という,中核的な意図の概念を紹介します。ユーザが明示的に意図を述べないため、回答の選択において観測可能な行動パターンから中心的な意図を導き出す。我々は、体系的なフィルタリング、LCMベースのアノテーション、厳密な品質管理を通じて、様々なドメインでデータセットを構築する。
論文参考訳（メタデータ） (2025-10-27T17:12:49Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Zero-Shot Prompting for Implicit Intent Prediction and Recommendation with Commonsense Reasoning [28.441725610692714]
本稿では,ユーザ発話に基づいて暗黙の意図を自動推論する多ドメイン対話システムを提案する。提案フレームワークは暗黙の意図の実現に有効であり,0ショット方式でボットを推奨する。
論文参考訳（メタデータ） (2022-10-12T03:33:49Z)
Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文参考訳（メタデータ） (2022-02-08T20:42:14Z)
Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。 4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文参考訳（メタデータ） (2022-02-05T09:24:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。