論文の概要: WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback
- arxiv url: http://arxiv.org/abs/2408.15549v3
- Date: Sun, 06 Apr 2025 20:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 20:14:38.610482
- Title: WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback
- Title(参考訳): WildFeedback: その場でのユーザーインタラクションとフィードバックによるLLMの調整
- Authors: Taiwei Shi, Zhuoer Wang, Longqi Yang, Ying-Chun Lin, Zexue He, Mengting Wan, Pei Zhou, Sujay Jauhar, Sihao Chen, Shan Xia, Hongfei Zhang, Jieyu Zhao, Xiaofeng Xu, Xia Song, Jennifer Neville,
- Abstract要約: WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 36.06000681394939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance, aligning these models with human preferences has emerged as a critical challenge. Traditional alignment methods, relying on human or LLM annotated datasets, are limited by their resource-intensive nature, inherent subjectivity, misalignment with real-world user preferences, and the risk of feedback loops that amplify model biases. To overcome these limitations, we introduce WildFeedback, a novel framework that leverages in-situ user feedback during conversations with LLMs to create preference datasets automatically. Given a corpus of multi-turn user-LLM conversation, WildFeedback identifies and classifies user feedback to LLM responses between conversation turns. The user feedback is then used to create examples of preferred and dispreferred responses according to users' preference. Our experiments demonstrate that LLMs fine-tuned on WildFeedback dataset exhibit significantly improved alignment with user preferences, as evidenced by both traditional benchmarks and our proposed checklist-guided evaluation. By incorporating in-situ feedback from actual users, WildFeedback addresses the scalability, subjectivity, and bias challenges that plague existing approaches, marking a significant step toward developing LLMs that are more responsive to the diverse and evolving needs of their users.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩を続けるにつれ、これらのモデルと人間の嗜好の整合が重要な課題として浮上している。
従来のアライメント手法は、人間またはLLMアノテートデータセットに依存しており、リソース集約性、本質的な主観性、現実世界のユーザの嗜好との相違、モデルバイアスを増幅するフィードバックループのリスクによって制限されている。
これらの制限を克服するために、LLMとの会話中にin-situユーザーフィードバックを活用して好みデータセットを自動的に作成する新しいフレームワークWildFeedbackを紹介した。
マルチターンのユーザ-LLM会話のコーパスを与えられたWildFeedbackは、会話のターン間のLLM応答に対するユーザのフィードバックを特定し、分類する。
ユーザのフィードバックは、ユーザの好みに応じて、好ましくない反応の例を作成するために使用される。
実験により,WildFeedbackデータセットを微調整したLCMは,従来のベンチマークと提案したチェックリスト誘導評価の両方で証明されたように,ユーザの嗜好との整合性を大幅に向上したことが示された。
WildFeedbackは、実際のユーザからのその場からのフィードバックを取り入れることで、既存のアプローチを悩ませているスケーラビリティ、主観性、バイアスの課題に対処する。
関連論文リスト
- Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [51.9706400130481]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering [39.79275025010785]
nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-26T14:34:00Z) - Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
Lusiferは、シミュレーションされたユーザフィードバックを生成する新しい環境である。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Representation Learning with Large Language Models for Recommendation [34.46344639742642]
本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文 参考訳(メタデータ) (2023-10-24T15:51:13Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。