論文の概要: User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal
- arxiv url: http://arxiv.org/abs/2507.23158v2
- Date: Sat, 04 Oct 2025 16:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.421937
- Title: User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal
- Title(参考訳): 人間-LLM対話におけるユーザフィードバック:学習信号としてノイズがあるユーザを理解するためのレンズ
- Authors: Yuhan Liu, Michael J. Q. Zhang, Eunsol Choi,
- Abstract要約: ユーザ-LLM会話ログのユーザフィードバックを分析し、そのようなフィードバックの発生時期と理由について考察する。
第2に、このような暗黙のユーザフィードバックから学習信号を抽出することについて研究する。
- 参考スコア(独自算出の注目度): 59.120335322495436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Once language models (LMs) are deployed, they can interact with users long-term, ideally evolving based on their feedback. Asking for direct user feedback can be disruptive; thus, we study harvesting implicit user feedback from user-LM interaction logs. We study two user-LM interaction datasets (WildChat and LMSYS). First, we analyze user feedback in the user-LLM conversation logs, providing insights into when and why such feedback occurs. Second, we study harvesting learning signals from such implicit user feedback. Specifically, we study whether incorporating the contents of user feedback (e.g., user wanted clarification), in addition to the polarity of the feedback, can improve the model performance. We observe mixed results, showing this helps in short human-designed questions (MTBench) but not on longer and more complex questions (WildBench). Together, we provide an in-depth study of implicit user feedback, showing its potential and limitations.
- Abstract(参考訳): 言語モデル(LM)がデプロイされれば、フィードバックに基づいて、長期的、理想的に進化したユーザと対話することが可能になる。
そこで本研究では,ユーザとLMのインタラクションログから暗黙のユーザフィードバックを抽出する手法について検討する。
We study two user-LM interaction datasets (WildChat and LMSYS)。
まず,ユーザ-LLM会話ログのユーザフィードバックを分析し,そのようなフィードバックの発生時期と理由について考察する。
第2に、このような暗黙のユーザフィードバックから学習信号を抽出することについて研究する。
具体的には,ユーザフィードバックの内容(例えば,ユーザの希望する明確化)を取り入れることで,フィードバックの極性に加えて,モデル性能を向上させることができるかどうかを検討する。
We observed mixed results, show this help in short human-designed questions (MTBench) but not not longer and more complex questions (WildBench)。
同時に、暗黙のユーザフィードバックに関する詳細な研究を行い、その可能性と限界を示します。
関連論文リスト
- Can User Feedback Help Issue Detection? An Empirical Study on a One-billion-user Online Service System [28.43595612060133]
我々は,1億ユーザオンラインサービスシステムにおいて,現実世界の6つのサービスから50,378,766件のユーザフィードバック項目について実証的研究を行った。
以上の結果から,ユーザからのフィードバックがシステム問題に関する無関係な情報を提供することが明らかとなった。
ユーザのフィードバック特性のみに基づいて、容易に検出できない深刻な問題を見つけ出す。
論文 参考訳(メタデータ) (2025-08-01T12:49:07Z) - Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Improving Conversational Question Answering Systems after Deployment
using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。
当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文 参考訳(メタデータ) (2020-11-01T19:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。