論文の概要: Learning from Naturally Occurring Feedback
- arxiv url: http://arxiv.org/abs/2407.10944v1
- Date: Mon, 15 Jul 2024 17:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:51:02.261035
- Title: Learning from Naturally Occurring Feedback
- Title(参考訳): 自然に発生するフィードバックから学ぶ
- Authors: Shachar Don-Yehiya, Leshem Choshen, Omri Abend,
- Abstract要約: チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
- 参考スコア(独自算出の注目度): 25.266461597402056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. We propose a scalable method for extracting feedback that users naturally include when interacting with chat models, and leveraging it for model training. We are further motivated by previous work that showed there are also qualitative advantages to using naturalistic (rather than auto-generated) feedback, such as less hallucinations and biases. We manually annotated conversation data to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. We apply our method to over 1M conversations to obtain hundreds of thousands of feedback samples. Training with the extracted feedback shows significant performance improvements over baseline models, demonstrating the efficacy of our approach in enhancing model alignment to human preferences.
- Abstract(参考訳): 人間のフィードバックデータは、言語モデルの開発において重要な要素である。
しかし、このフィードバックを集めるのはコストがかかり、究極的にはスケーラブルではありません。
本稿では,チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出し,モデルトレーニングに活用するスケーラブルな手法を提案する。
我々は、幻覚や偏見の減少など、自然主義的な(自動生成ではなく)フィードバックを使うという質的な利点も示している以前の研究によってさらに動機づけられた。
通常のコーパスで自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートし,チャットの最大30%には明示的なフィードバックが含まれていることを確認した。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
抽出したフィードバックを用いたトレーニングは,ベースラインモデルよりも顕著な性能向上を示し,人間の嗜好に対するモデルアライメントを高めるためのアプローチの有効性を示した。
関連論文リスト
- UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。