Fugu-MT 論文翻訳(概要): User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal

論文の概要: User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal

arxiv url: http://arxiv.org/abs/2507.23158v1
Date: Wed, 30 Jul 2025 23:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:08.909924
Title: User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal
Title（参考訳）: 人間-LLM対話におけるユーザフィードバック:学習信号としてノイズがあるユーザを理解するためのレンズ
Authors: Yuhan Liu, Michael J. Q. Zhang, Eunsol Choi,
Abstract要約: 本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
参考スコア（独自算出の注目度）: 58.43749783815486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Once language models (LMs) are deployed, they can interact with users long-term, ideally evolving continuously based on their feedback. Asking for direct user feedback can be disruptive; thus, we study harvesting user feedback from user-LM interaction logs. We study implicit user feedback in two user-LM interaction datasets (WildChat and LMSYS). First, we analyze user feedback in the user-LLM conversation trajectory, providing insights into when and why such feedback occurs. Second, we study harvesting learning signals from such implicit user feedback. We find that the contents of user feedback (e.g., user wanted clarification), not just the polarity (e.g., users were unhappy with the previous model response), can improve model performance in short human-designed questions (MTBench) but not on longer and more complex questions (WildBench). We also find that the usefulness of user feedback is largely tied to the quality of the user's initial prompt. Together, we provide an in-depth study of implicit user feedback, showing its potential and limitations.
Abstract（参考訳）: 一度言語モデル(LM)がデプロイされると、ユーザはフィードバックに基づいて長期的、理想的には継続的に進化する。ユーザからの直接フィードバックを求めることは破壊的であり,ユーザとLMのインタラクションログからユーザからのフィードバックを抽出する。本研究では,2つのユーザ/LMインタラクションデータセット(WildChatとLMSYS)における暗黙のユーザフィードバックについて検討する。まず,ユーザ-LLM会話軌跡のユーザフィードバックを分析し,そのようなフィードバックの発生時期と理由について考察する。第2に、このような暗黙のユーザフィードバックから学習信号を抽出することについて研究する。ユーザからのフィードバックの内容(例えば,ユーザが望んだ明確化)は,極性だけでなく(例えば,以前のモデル応答に不満を持ったユーザなど),人間設計の短い質問(MTBench)においてモデル性能を改善することができるが,より長く複雑な質問(WildBench)では改善できないことがわかった。また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。同時に、暗黙のユーザフィードバックに関する詳細な研究を行い、その可能性と限界を示します。

関連論文リスト

Can User Feedback Help Issue Detection? An Empirical Study on a One-billion-user Online Service System [28.43595612060133]
我々は,1億ユーザオンラインサービスシステムにおいて,現実世界の6つのサービスから50,378,766件のユーザフィードバック項目について実証的研究を行った。以上の結果から,ユーザからのフィードバックがシステム問題に関する無関係な情報を提供することが明らかとなった。ユーザのフィードバック特性のみに基づいて、容易に検出できない深刻な問題を見つけ出す。
論文参考訳（メタデータ） (2025-08-01T12:49:07Z)
Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。 P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文参考訳（メタデータ） (2025-05-20T22:14:44Z)
Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。 PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。 LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文参考訳（メタデータ） (2025-04-19T08:16:10Z)
WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2024-08-28T05:53:46Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文参考訳（メタデータ） (2024-02-21T01:39:56Z)
Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文参考訳（メタデータ） (2023-05-21T14:35:32Z)
Simulating Bandit Learning from User Feedback for Extractive Question Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文参考訳（メタデータ） (2022-03-18T17:47:58Z)
Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning [69.42679922160684]
本稿では,二元的ユーザフィードバックを用いた初期教師付きシステムを改善するために,重要サンプリングに基づくフィードバック重み付き学習を提案する。当社の作業は,実際のユーザとのインタラクションを活用し,デプロイ後の会話システムを改善する可能性を開くものだ。
論文参考訳（メタデータ） (2020-11-01T19:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。