論文の概要: Recipes for building an open-domain chatbot
- arxiv url: http://arxiv.org/abs/2004.13637v2
- Date: Thu, 30 Apr 2020 15:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:08:04.235981
- Title: Recipes for building an open-domain chatbot
- Title(参考訳): オープンドメインチャットボット構築の準備
- Authors: Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson,
Yinhan Liu, Jing Xu, Myle Ott, Kurt Shuster, Eric M. Smith, Y-Lan Boureau,
and Jason Weston
- Abstract要約: 良い会話には、会話のポイントとパートナーに耳を傾け、知識、共感、パーソナリティを適切に表示する必要がある。
適切なトレーニングデータと生成戦略を選択すると、大規模なモデルでこれらのスキルを習得できることが示される。
私たちは90M、2.7B、9.4Bのパラメータモデルでこれらのレシピの変種を構築し、モデルとコードを公開しています。
- 参考スコア(独自算出の注目度): 44.75975649076827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building open-domain chatbots is a challenging area for machine learning
research. While prior work has shown that scaling neural models in the number
of parameters and the size of the data they are trained on gives improved
results, we show that other ingredients are important for a high-performing
chatbot. Good conversation requires a number of skills that an expert
conversationalist blends in a seamless way: providing engaging talking points
and listening to their partners, and displaying knowledge, empathy and
personality appropriately, while maintaining a consistent persona. We show that
large scale models can learn these skills when given appropriate training data
and choice of generation strategy. We build variants of these recipes with 90M,
2.7B and 9.4B parameter models, and make our models and code publicly
available. Human evaluations show our best models are superior to existing
approaches in multi-turn dialogue in terms of engagingness and humanness
measurements. We then discuss the limitations of this work by analyzing failure
cases of our models.
- Abstract(参考訳): オープンドメインのチャットボットを構築することは、機械学習研究にとって難しい分野だ。
先行研究では、パラメータ数とトレーニングしたデータのサイズでニューラルネットワークモデルをスケーリングすることは、よりよい結果をもたらすことが示されているが、他の要素は、ハイパフォーマンスなチャットボットにとって重要であることを示している。
良い会話には、専門家の会話主義者がシームレスに組み合わさる多くのスキルが必要です。会話のポイントを熱心に提供し、パートナーに耳を傾け、一貫性のあるペルソナを維持しながら、知識、共感、性格を適切に表示することです。
適切なトレーニングデータと生成戦略の選択が与えられれば,大規模モデルがこれらのスキルを学習できることが分かる。
これらのレシピのバリエーションを90m、2.7b、9.4bのパラメータモデルで構築し、モデルとコードを公開しています。
人間の評価は, 従来のマルチターン対話よりも, エンゲージネスと人間性測定の点で優れていることを示す。
次に,モデルの障害事例を分析することで,この作業の限界について論じる。
関連論文リスト
- CoDi: Conversational Distillation for Grounded Question Answering [10.265241619616676]
我々はCoDiという新しいデータ蒸留フレームワークを導入する。
CoDiを使えば、大規模でアシスタントスタイルのデータセットを、さまざまな方法で合成することができます。
我々は,CoDi合成データを用いてトレーニングしたSLMが,標準的な測定値において,人間の注釈付きデータに基づいてトレーニングしたモデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-20T22:35:47Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Low-Resource Adaptation of Open-Domain Generative Chatbots [0.0]
低パラメータモデルは、特定の領域を改善しながら、会話能力の一般的な知識を維持することができることを示す。
本稿では,質問型の多様さを考慮し,マルチターン会話を通して参照を追跡し,不整合性や潜在的有害な応答を除去する汎用フレームワークを提案する。
われわれのフレームワークはチャットとトランザクションタスクをシームレスに移行し、最終的にはデジタルアシスタントとの対話をより人間らしくする。
論文 参考訳(メタデータ) (2021-08-13T17:40:30Z) - Multi-Modal Open-Domain Dialogue [28.69395893943413]
オープンドメインの会話エージェントにおける最近の研究は、大規模なスケーリングによって、モデルエンゲージネスと人文性メトリクスの大幅な改善が達成できることを実証している。
我々は、最先端のオープンドメイン対話エージェントと最先端のビジョンモデルからのコンポーネントの組み合わせについて検討する。
提案手法は,マルチモーダル対話において,既存モデルよりも優れた性能を示すと同時に,先行モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-02T16:20:39Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。