論文の概要: Deploying Lifelong Open-Domain Dialogue Learning
- arxiv url: http://arxiv.org/abs/2008.08076v2
- Date: Wed, 19 Aug 2020 16:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:36:35.016018
- Title: Deploying Lifelong Open-Domain Dialogue Learning
- Title(参考訳): 生涯にわたるオープンドメイン対話学習の展開
- Authors: Kurt Shuster, Jack Urbanek, Emily Dinan, Arthur Szlam, Jason Weston
- Abstract要約: 本研究では,オープンドメインファンタジーの世界にある学習エージェントと人間プレイヤーが会話するロールプレイングゲームを構築し,展開する。
自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。
この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集するコストもはるかに安い。
- 参考スコア(独自算出の注目度): 48.12600947313494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much of NLP research has focused on crowdsourced static datasets and the
supervised learning paradigm of training once and then evaluating test
performance. As argued in de Vries et al. (2020), crowdsourced data has the
issues of lack of naturalness and relevance to real-world use cases, while the
static dataset paradigm does not allow for a model to learn from its
experiences of using language (Silver et al., 2013). In contrast, one might
hope for machine learning systems that become more useful as they interact with
people. In this work, we build and deploy a role-playing game, whereby human
players converse with learning agents situated in an open-domain fantasy world.
We show that by training models on the conversations they have with humans in
the game the models progressively improve, as measured by automatic metrics and
online engagement scores. This learning is shown to be more efficient than
crowdsourced data when applied to conversations with real users, as well as
being far cheaper to collect.
- Abstract(参考訳): NLP研究の多くは、クラウドソーシングされた静的データセットとトレーニングの教師付き学習パラダイムに焦点を合わせ、テストパフォーマンスを評価してきた。
de vries et al. (2020)で論じられているように、クラウドソーシングされたデータは、自然性と現実世界のユースケースとの関連性の欠如の問題を持っているが、静的データセットパラダイムでは、言語を使った経験からモデルを学ぶことはできない(silver et al., 2013)。
対照的に、人と対話するときにより便利になる機械学習システムが期待できるかもしれない。
本研究では,オープンドメインのファンタジー世界に位置する学習エージェントと人間のプレイヤーが会話するロールプレイングゲームを構築し,展開する。
自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。
この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集コストもはるかに安い。
関連論文リスト
- Towards a Zero-Data, Controllable, Adaptive Dialog System [27.75972750138208]
ダイアログツリーから直接データを生成するアプローチについて検討する。
合成データで訓練されたエージェントは、人間のデータで訓練されたモデルに匹敵するダイアログを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-26T10:45:11Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning [35.67318830455459]
我々は、強化学習(RL)を用いて、ロボットの対話能力を大規模に活用するリアルタイムかつオープンな対話システムを開発した。
我々の作業は、動的行動空間に特に適するRL技術とSOTA言語モデルを用いて生成された会話状態の簡潔な埋め込みをペアリングする。
論文 参考訳(メタデータ) (2022-07-25T16:12:33Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Wandering Within a World: Online Contextualized Few-Shot Learning [62.28521610606054]
我々は、数ショット学習の標準フレームワークをオンライン環境に拡張することで、一般的な人間と機械学習環境のギャップを埋めることを目指している。
本研究では,世界中をさまようエージェントの視覚体験を模倣した大規模な屋内画像に基づく,新しいプロトタイプによる数ショット学習を提案する。
論文 参考訳(メタデータ) (2020-07-09T04:05:04Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Recipes for building an open-domain chatbot [44.75975649076827]
良い会話には、会話のポイントとパートナーに耳を傾け、知識、共感、パーソナリティを適切に表示する必要がある。
適切なトレーニングデータと生成戦略を選択すると、大規模なモデルでこれらのスキルを習得できることが示される。
私たちは90M、2.7B、9.4Bのパラメータモデルでこれらのレシピの変種を構築し、モデルとコードを公開しています。
論文 参考訳(メタデータ) (2020-04-28T16:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。