論文の概要: Dialogue Response Ranking Training with Large-Scale Human Feedback Data
- arxiv url: http://arxiv.org/abs/2009.06978v1
- Date: Tue, 15 Sep 2020 10:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:07:24.419470
- Title: Dialogue Response Ranking Training with Large-Scale Human Feedback Data
- Title(参考訳): 大規模フィードバックデータを用いた対話応答ランキングトレーニング
- Authors: Xiang Gao, Yizhe Zhang, Michel Galley, Chris Brockett, Bill Dolan
- Abstract要約: ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 52.12342165926226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing open-domain dialog models are generally trained to minimize the
perplexity of target human responses. However, some human replies are more
engaging than others, spawning more followup interactions. Current
conversational models are increasingly capable of producing turns that are
context-relevant, but in order to produce compelling agents, these models need
to be able to predict and optimize for turns that are genuinely engaging. We
leverage social media feedback data (number of replies and upvotes) to build a
large-scale training dataset for feedback prediction. To alleviate possible
distortion between the feedback and engagingness, we convert the ranking
problem to a comparison of response pairs which involve few confounding
factors. We trained DialogRPT, a set of GPT-2 based models on 133M pairs of
human feedback data and the resulting ranker outperformed several baselines.
Particularly, our ranker outperforms the conventional dialog perplexity
baseline with a large margin on predicting Reddit feedback. We finally combine
the feedback prediction models and a human-like scoring model to rank the
machine-generated dialog responses. Crowd-sourced human evaluation shows that
our ranking method correlates better with real human preferences than baseline
models.
- Abstract(参考訳): 既存のオープンドメインダイアログモデルは通常、ターゲットとする人間の応答の難易度を最小限に抑えるために訓練される。
しかしながら、一部のヒトの反応は他の反応よりも活発であり、フォローアップの相互作用を生じさせる。
現在の会話モデルは、コンテキストに関連のあるターンを生成する能力がますます高まっているが、説得力のあるエージェントを生成するためには、これらのモデルは真に魅力的なターンを予測し、最適化する必要がある。
我々は,ソーシャルメディアのフィードバックデータ(応答数と起動数)を活用して,フィードバック予測のための大規模トレーニングデータセットを構築する。
フィードバックとエンゲージメントのゆがみを緩和するため,ランキング問題を,結合要因の少ない応答対の比較に転換する。
我々は,1300万組の人間のフィードバックデータに基づくGPT-2に基づくモデルであるDialogRPTを訓練した。
特に,我々のランキングは,Redditのフィードバック予測において,従来のダイアログの難易度ベースラインよりも優れていた。
最後に、フィードバック予測モデルと人間ライクなスコアリングモデルを組み合わせて、マシンが生成したダイアログ応答をランク付けする。
クラウドソーシングによる人格評価では,評価手法がベースラインモデルよりも実際の人格とよく相関することが示された。
関連論文リスト
- Learning from Naturally Occurring Feedback [25.266461597402056]
チャットモデルと対話する際にユーザが自然に含むフィードバックを抽出するスケーラブルな方法を提案する。
我々は,自然に発生するフィードバックの存在を確認するために,会話データを手動でアノテートした。
100万件以上の会話に本手法を適用し,数十万件のフィードバックサンプルを得た。
論文 参考訳(メタデータ) (2024-07-15T17:41:34Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Improving Open-Domain Dialogue Evaluation with a Causal Inference Model [8.625569782672663]
明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
論文 参考訳(メタデータ) (2023-01-31T02:31:42Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Multi-Referenced Training for Dialogue Response Generation [36.24321477524634]
実世界の確率分布と単一参照データの確率分布とのギャップは,モデルが1対多の関係を効率的に学習することを妨げることを示す。
我々は、実世界の分布をよりよく近似するマルチ参照データを構築するために、強力な事前学習モデルから多様な擬似参照を生成する。
論文 参考訳(メタデータ) (2020-09-15T14:17:53Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。