論文の概要: WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback
- arxiv url: http://arxiv.org/abs/2408.15549v1
- Date: Wed, 28 Aug 2024 05:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:03:09.260231
- Title: WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback
- Title(参考訳): WildFeedback: その場でのユーザーインタラクションとフィードバックによるLLMの調整
- Authors: Taiwei Shi, Zhuoer Wang, Longqi Yang, Ying-Chun Lin, Zexue He, Mengting Wan, Pei Zhou, Sujay Jauhar, Xiaofeng Xu, Xia Song, Jennifer Neville,
- Abstract要約: WildFeedbackは、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した好みデータセットを作成する新しいフレームワークである。
我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを実現する。
実験により,WildFeedbackを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることが示された。
- 参考スコア(独自算出の注目度): 28.317315761271804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) continue to advance, aligning these models with human preferences has emerged as a critical challenge. Traditional alignment methods, relying on human or LLM annotated datasets, are limited by their resource-intensive nature, inherent subjectivity, and the risk of feedback loops that amplify model biases. To overcome these limitations, we introduce WildFeedback, a novel framework that leverages real-time, in-situ user interactions to create preference datasets that more accurately reflect authentic human values. WildFeedback operates through a three-step process: feedback signal identification, preference data construction, and user-guided evaluation. We applied this framework to a large corpus of user-LLM conversations, resulting in a rich preference dataset that reflects genuine user preferences. This dataset captures the nuances of user preferences by identifying and classifying feedback signals within natural conversations, thereby enabling the construction of more representative and context-sensitive alignment data. Our extensive experiments demonstrate that LLMs fine-tuned on WildFeedback exhibit significantly improved alignment with user preferences, as evidenced by both traditional benchmarks and our proposed user-guided evaluation. By incorporating real-time feedback from actual users, WildFeedback addresses the scalability, subjectivity, and bias challenges that plague existing approaches, marking a significant step toward developing LLMs that are more responsive to the diverse and evolving needs of their users. In summary, WildFeedback offers a robust, scalable solution for aligning LLMs with true human values, setting a new standard for the development and evaluation of user-centric language models.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩を続けるにつれ、これらのモデルと人間の嗜好の整合が重要な課題として浮上している。
従来のアライメント手法は、人間またはLLMアノテートデータセットに依存しており、リソース集約性、固有の主観性、モデルバイアスを増幅するフィードバックループのリスクによって制限されている。
これらの制限を克服するために、WildFeedbackという、リアルタイムのin-situユーザーインタラクションを活用して、より正確に人間の価値観を反映した嗜好データセットを作成する新しいフレームワークを紹介します。
WildFeedbackはフィードバック信号の識別、優先データの構築、ユーザガイドによる評価という3段階のプロセスで運用されている。
我々は,このフレームワークをユーザとLLMの会話の大規模なコーパスに適用し,実際のユーザの好みを反映したリッチな嗜好データセットを作成した。
このデータセットは、自然な会話の中でフィードバック信号を識別し分類することで、ユーザの好みのニュアンスをキャプチャし、より代表的でコンテキストに敏感なアライメントデータの構築を可能にする。
実験により,WildFeedbackを微調整したLCMは,従来のベンチマークと提案したユーザガイド評価の両方で証明されたように,ユーザの嗜好との整合性を大幅に向上したことが示された。
実際のユーザからのリアルタイムフィードバックを取り入れることで、WildFeedbackは、既存のアプローチを悩ませるスケーラビリティ、主観性、バイアスの課題に対処し、ユーザの多様性と進化するニーズにより反応するLSMを開発するための重要なステップをマークします。
要約すると、WildFeedbackはLLMを真の人間の価値と整合させる堅牢でスケーラブルなソリューションを提供し、ユーザー中心の言語モデルの開発と評価のための新しい標準を設定します。
関連論文リスト
- Stop Playing the Guessing Game! Target-free User Simulation for Evaluating Conversational Recommender Systems [15.481944998961847]
PEPPERは、実際のユーザインタラクション履歴とレビューから構築された、ターゲットフリーなユーザシミュレータによる評価プロトコルである。
PEPPERは、単純な推測ゲームに陥ることなく、現実的なユーザ-CRS対話を可能にする。
PEPPERは、CRSの嗜好誘発能力を包括的に評価するための詳細な尺度を提示する。
論文 参考訳(メタデータ) (2024-11-25T07:36:20Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
Lusiferは、シミュレーションされたユーザフィードバックを生成する新しい環境である。
ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。
MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Representation Learning with Large Language Models for Recommendation [34.46344639742642]
本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文 参考訳(メタデータ) (2023-10-24T15:51:13Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。