論文の概要: WebGPT: Browser-assisted question-answering with human feedback
- arxiv url: http://arxiv.org/abs/2112.09332v1
- Date: Fri, 17 Dec 2021 05:43:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 13:20:25.287228
- Title: WebGPT: Browser-assisted question-answering with human feedback
- Title(参考訳): WebGPT: ブラウザによる質問応答とフィードバック
- Authors: Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang,
Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William
Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin
Button, Matthew Knight, Benjamin Chess, John Schulman
- Abstract要約: 我々はテキストベースのWebブラウジング環境を用いて、GPT-3を微調整し、長文の質問に答える。
事実の精度をより容易に評価するためには、モデルが回答を支持するために閲覧中に参照を収集する必要がある。
このモデルの回答は、人間のデモ参加者の回答の56%、Redditの回答の69%に好まれています。
- 参考スコア(独自算出の注目度): 12.865185980752733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We fine-tune GPT-3 to answer long-form questions using a text-based
web-browsing environment, which allows the model to search and navigate the
web. By setting up the task so that it can be performed by humans, we are able
to train models on the task using imitation learning, and then optimize answer
quality with human feedback. To make human evaluation of factual accuracy
easier, models must collect references while browsing in support of their
answers. We train and evaluate our models on ELI5, a dataset of questions asked
by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior
cloning, and then performing rejection sampling against a reward model trained
to predict human preferences. This model's answers are preferred by humans 56%
of the time to those of our human demonstrators, and 69% of the time to the
highest-voted answer from Reddit.
- Abstract(参考訳): 我々は,テキストベースのWebブラウジング環境を用いて,GPT-3を微調整し,ウェブの検索とナビゲートを可能にする。
タスクを人間によって実行できるように設定することで、模倣学習を用いてタスク上のモデルを訓練し、人間のフィードバックで回答品質を最適化することができる。
事実の精度をより容易に評価するためには、モデルが回答を支持するために閲覧中に参照を収集する必要がある。
モデルのトレーニングと評価は、redditユーザからの質問のデータセットであるeli5で行います。
行動クローニングを用いてGPT-3を微調整し、人間の嗜好を予測するために訓練された報酬モデルに対する拒絶サンプリングを行う。
このモデルの答えは、人間のデモ参加者の56%、redditの最も高い回答の69%が好まれています。
関連論文リスト
- Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。
本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-11T21:41:41Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Pre-Trained Neural Language Models for Automatic Mobile App User
Feedback Answer Generation [9.105367401167129]
調査によると、モバイルアプリのユーザからのアプリストアへのフィードバックに対する開発者の回答は、アプリのスターレーティングを増加させる可能性がある。
アプリの開発者がユーザの問題に関連する回答を生成するのを助けるために、最近の研究では、回答を自動的に生成するモデルを開発している。
本稿では,事前学習されたニューラルネットワークモデル(PTM)を評価し,モバイルアプリのユーザフィードバックに対する応答を生成する。
論文 参考訳(メタデータ) (2022-02-04T18:26:55Z) - When in Doubt, Ask: Generating Answerable and Unanswerable Questions,
Unsupervised [0.0]
質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。
現代のQAで使用される言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回っている。
本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。
論文 参考訳(メタデータ) (2020-10-04T15:56:44Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。