論文の概要: Towards Boosting the Open-Domain Chatbot with Human Feedback
- arxiv url: http://arxiv.org/abs/2208.14165v1
- Date: Tue, 30 Aug 2022 11:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:55:35.018592
- Title: Towards Boosting the Open-Domain Chatbot with Human Feedback
- Title(参考訳): 人間フィードバックによるオープンドメインチャットボットの強化に向けて
- Authors: Hua Lu, Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang
- Abstract要約: ソーシャルメディアコメントで事前訓練された多くのオープンドメイン対話モデルは、一貫性のある応答を生成することができるが、実際のユーザと対話するときに魅力的な応答を生成するのが困難である。
本稿では,オープンドメインチャットボットを高速化するための,新しい,効率的なアプローチを提案する。
アノテーションにモデル生成候補の応答の選択や修正を依頼することで、Diamanteは人間に示された応答を効率的に収集し、中国のChit-chatデータセットを構築する。
- 参考スコア(独自算出の注目度): 45.99952111908982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many open-domain dialogue models pre-trained with social media comments can
generate coherent replies but have difficulties producing engaging responses
when interacting with real users. This phenomenon might mainly result from the
deficiency of annotated human-human conversations and the misalignment with
human preference. In this paper, we propose a novel and efficient approach
Diamante to boost the open-domain chatbot, where two kinds of human feedback
(including explicit demonstration and implicit preference) are collected and
leveraged. By asking annotators to select or amend the model-generated
candidate responses, Diamante efficiently collects the human demonstrated
responses and constructs a Chinese chit-chat dataset. To enhance the alignment
with human preference, Diamante leverages the implicit preference in the data
collection process and introduces the generation-evaluation joint training.
Comprehensive experiments indicate that the Diamante dataset and joint training
paradigm can significantly boost the performance of Chinese pre-trained
dialogue models.
- Abstract(参考訳): ソーシャルメディアコメントで事前学習された多くのオープンドメインの対話モデルは、コヒーレントな応答を生成するが、実際のユーザとの対話において、魅力的な応答を生成するのが困難である。
この現象は、主に注釈付き人間と人間の会話の欠如と、人間の好みとの相違に起因する可能性がある。
本稿では,2種類の人間フィードバック(明示的なデモンストレーションと暗黙的嗜好を含む)を収集し活用する,オープンドメインチャットボットを強化するための,新規かつ効率的なアプローチを提案する。
アノテーションにモデル生成候補の応答の選択や修正を依頼することで、Diamanteは人間に示された応答を効率的に収集し、中国のチャットデータセットを構築する。
人間の嗜好との整合性を高めるため、Diamanteはデータ収集プロセスにおける暗黙の嗜好を活用し、世代評価共同トレーニングを導入する。
包括的実験により、diamanteデータセットとジョイントトレーニングパラダイムは、中国の事前訓練された対話モデルの性能を著しく向上させることができることが示された。
関連論文リスト
- Using Natural Language Inference to Improve Persona Extraction from
Dialogue in a New Domain [44.05974724495336]
訓練されたペルソナ抽出モデルを新しい環境に適応させる自然言語推論手法を提案する。
提案手法は高品質な抽出ペルソナを返却し,人間のアノテーションを少なくする。
論文 参考訳(メタデータ) (2024-01-12T18:25:03Z) - Promoting Open-domain Dialogue Generation through Learning Pattern
Information between Contexts and Responses [5.936682548344234]
本稿では,学習サンプルの文脈と応答の間の暗黙的なパターン情報を学ぶことにより,生成した応答の品質を向上させる。
また、文脈と応答間の暗黙的パターン情報をマイニングする応答認識機構を設計し、生成した応答をより多様でヒトの応答に近似するようにした。
論文 参考訳(メタデータ) (2023-09-06T08:11:39Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - WHAT, WHEN, and HOW to Ground: Designing User Persona-Aware
Conversational Agents for Engaging Dialogue [4.328280329592151]
本稿では,WWH問題に対処するオープンドメイン対話システムを構築する方法を提案する。
提案手法は、重み付けされたデータセットブレンディング、ネガティブなペルソナ情報拡張方法、パーソナライズされた会話データセットの設計を含む。
本研究は,対話の流速と接地傾向のバランスを効果的に保ちつつ,接地応答の制御性と説明性を向上させるための応答型ラベルを導入する。
論文 参考訳(メタデータ) (2023-06-06T02:28:38Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - A Taxonomy of Empathetic Response Intents in Human Social Conversations [1.52292571922932]
自然言語処理コミュニティでは、オープンドメインの会話エージェントがますます人気を高めている。
課題のひとつは、共感的な方法で会話できるようにすることです。
現在のニューラルレスポンス生成手法は、大規模な会話データからエンドツーエンドの学習のみに頼って対話を生成する。
近年,対話act/intentモデリングとニューラルレスポンス生成を組み合わせることが期待されている。
論文 参考訳(メタデータ) (2020-12-07T21:56:45Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。