論文の概要: Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm
- arxiv url: http://arxiv.org/abs/2212.14117v1
- Date: Wed, 28 Dec 2022 22:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:01:04.691520
- Title: Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm
- Title(参考訳): 強化学習ポリシーアルゴリズムを用いたシーケンス-シーケンスnlpモデルの改良
- Authors: Jabri Ismail, Aboulbichr Ahmed and El ouaazizi Aziza
- Abstract要約: 対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, the current neural network models of dialogue generation(chatbots)
show great promise for generating answers for chatty agents. But they are
short-sighted in that they predict utterances one at a time while disregarding
their impact on future outcomes. Modelling a dialogue's future direction is
critical for generating coherent, interesting dialogues, a need that has led
traditional NLP dialogue models that rely on reinforcement learning. In this
article, we explain how to combine these objectives by using deep reinforcement
learning to predict future rewards in chatbot dialogue. The model simulates
conversations between two virtual agents, with policy gradient methods used to
reward sequences that exhibit three useful conversational characteristics: the
flow of informality, coherence, and simplicity of response (related to
forward-looking function). We assess our model based on its diversity, length,
and complexity with regard to humans. In dialogue simulation, evaluations
demonstrated that the proposed model generates more interactive responses and
encourages a more sustained successful conversation. This work commemorates a
preliminary step toward developing a neural conversational model based on the
long-term success of dialogues.
- Abstract(参考訳): 現在、現在の対話生成(chatbots)のニューラルネットワークモデルは、チャットエージェントの回答を生成することに非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
対話の今後の方向性をモデル化することは、一貫性のある興味深い対話を生成するために不可欠であり、強化学習に依存する従来のnlp対話モデルに繋がる必要性がある。
本稿では,チャットボット対話における今後の報酬を予測するために,深層強化学習を用いてこれらの目標を組み合わせる方法について述べる。
このモデルは、2つの仮想エージェント間の会話をシミュレートし、非公式性、コヒーレンス、応答の単純さ(前方の関数に関連する)の3つの有用な会話特性を示すシーケンスを報酬するポリシー勾配法を用いる。
我々は,人間の多様性,長さ,複雑さに基づいてモデルを評価する。
対話シミュレーションでは,提案モデルがよりインタラクティブな応答を生成し,より持続的な会話を促すことを示した。
本研究は,対話の長期的成功に基づくニューラル・会話モデルの構築に向けた予備的ステップを記念する。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
対話モデリングの観点から,従来の手法を検討した。
対話理解タスクで広く使用されている対話モデリングの3つの典型的なパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-04T15:50:17Z) - Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration [45.14559188965439]
ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用することを提案する。
我々は報酬を通じて繰り返し、矛盾、タスク関連に関する文レベル情報を蒸留する。
実験により,我々のモデルは,自動測定結果と人的評価結果の両方において,従来の最先端対話モデルよりも優れていたことがわかった。
論文 参考訳(メタデータ) (2020-12-31T00:02:51Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。