論文の概要: Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation
- arxiv url: http://arxiv.org/abs/2305.00955v2
- Date: Thu, 1 Jun 2023 01:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:35:36.959143
- Title: Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation
- Title(参考訳): ギャップを埋める:自然言語生成のための(Human)フィードバックの統合に関する調査
- Authors: Patrick Fernandes, Aman Madaan, Emmy Liu, Ant\'onio Farinhas, Pedro
Henrique Martins, Amanda Bertsch, Jos\'e G. C. de Souza, Shuyan Zhou,
Tongshuang Wu, Graham Neubig, Andr\'e F. T. Martins
- Abstract要約: この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
- 参考スコア(独自算出の注目度): 68.9440575276396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent advances in natural language generation have been fueled by
training large language models on internet-scale data. However, this paradigm
can lead to models that generate toxic, inaccurate, and unhelpful content, and
automatic evaluation metrics often fail to identify these behaviors. As models
become more capable, human feedback is an invaluable signal for evaluating and
improving models. This survey aims to provide an overview of the recent
research that has leveraged human feedback to improve natural language
generation. First, we introduce an encompassing formalization of feedback, and
identify and organize existing research into a taxonomy following this
formalization. Next, we discuss how feedback can be described by its format and
objective, and cover the two approaches proposed to use feedback (either for
training or decoding): directly using the feedback or training feedback models.
We also discuss existing datasets for human-feedback data collection, and
concerns surrounding feedback collection. Finally, we provide an overview of
the nascent field of AI feedback, which exploits large language models to make
judgments based on a set of principles and minimize the need for human
intervention.
- Abstract(参考訳): 自然言語生成の最近の進歩は、インターネット規模のデータで大規模な言語モデルを訓練することで加速されている。
しかし、このパラダイムは有害で不正確で不正確なコンテンツを生成するモデルにつながる可能性があり、自動評価指標はこれらの振る舞いを特定するのに失敗することが多い。
モデルがより有能になるにつれて、人間のフィードバックはモデルの評価と改善にとって貴重なシグナルとなる。
この調査は、人間のフィードバックを利用して自然言語生成を改善する最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包含し、この形式化に従って既存の研究を分類学に分類し整理する。
次に、その形式と目的によってフィードバックをどのように記述するかについて議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて述べる。
また、人間フィードバックデータ収集のための既存のデータセットや、フィードバック収集に関する懸念についても論じる。
最後に、大言語モデルを利用して一連の原則に基づいた判断を行い、人間の介入の必要性を最小限に抑える、aiフィードバックの生まれたばかりの分野の概要を提供する。
関連論文リスト
- Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文 参考訳(メタデータ) (2024-07-15T17:41:34Z) - The Past, Present and Better Future of Feedback Learning in Large
Language Models for Subjective Human Preferences and Values [16.62409302626101]
我々は、ACLとarXivリポジトリを中心に95の論文を描いて、人間のフィードバックから学習するための既存のアプローチを調査した。
私たちは、現在の技術とプラクティスの概要と、フィードバックを使う動機を説明します。
我々は,5つの未解決概念と実践的課題を提起することによって,大規模言語モデルにおけるフィードバック学習のよりよい未来を奨励する。
論文 参考訳(メタデータ) (2023-10-11T16:18:13Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。