論文の概要: Stylistic Dialogue Generation via Information-Guided Reinforcement
Learning Strategy
- arxiv url: http://arxiv.org/abs/2004.02202v1
- Date: Sun, 5 Apr 2020 13:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:54:48.639720
- Title: Stylistic Dialogue Generation via Information-Guided Reinforcement
Learning Strategy
- Title(参考訳): 情報誘導強化学習戦略による立体対話生成
- Authors: Yixuan Su, Deng Cai, Yan Wang, Simon Baker, Anna Korhonen, Nigel
Collier, Xiaojiang Liu
- Abstract要約: 情報指導強化学習(IG-RL)と呼ばれる新しい学習戦略を導入する。
IG-RLでは、コンテンツ品質の維持を制約しながら、スタイル表現を探索するトレーニングモデルが推奨されている。
これは,品質保存探索のための統計的スタイル情報ガイダンスを用いた強化学習戦略を採用することで達成される。
- 参考スコア(独自算出の注目度): 65.98002918470544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stylistic response generation is crucial for building an engaging dialogue
system for industrial use. While it has attracted much research interest,
existing methods often generate stylistic responses at the cost of the content
quality (relevance and fluency). To enable better balance between the content
quality and the style, we introduce a new training strategy, know as
Information-Guided Reinforcement Learning (IG-RL). In IG-RL, a training model
is encouraged to explore stylistic expressions while being constrained to
maintain its content quality. This is achieved by adopting reinforcement
learning strategy with statistical style information guidance for
quality-preserving explorations. Experiments on two datasets show that the
proposed approach outperforms several strong baselines in terms of the overall
response performance.
- Abstract(参考訳): スタイリスティック応答生成は産業用対話システムの構築に不可欠である。
研究の関心は高いが、既存の手法は内容の質(関連性や流布性)を犠牲にしてスタイリスティックな応答を生成することが多い。
コンテンツ品質とスタイルのバランスを改善するため,IG-RL(Information-Guided Reinforcement Learning)と呼ばれる新たなトレーニング戦略を導入する。
IG-RLでは、コンテンツ品質の維持を制約しながら、スタイル表現を探索するトレーニングモデルが推奨されている。
これは,品質保全のための統計的スタイル情報ガイダンスを用いた強化学習戦略を採用することで達成される。
2つのデータセットの実験により、提案手法は、全体の応答性能において、いくつかの強いベースラインを上回ります。
関連論文リスト
- Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling [65.72918416258219]
支援性に基づく知識書き換え(SKR)は、LLM生成に本質的に最適化された堅牢でプラガブルな知識書き換えである。
知識支援に基づき、まず、リライターモデルのためのトレーニングデータキュレーション戦略を設計する。
次に、生成したリライトを最適な支持度に調整するために、直接選好最適化(DPO)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-06-12T11:52:35Z) - StyleChat: Learning Recitation-Augmented Memory in LLMs for Stylized Dialogue Generation [43.29667566560533]
LLM(Large Language Models)の生成能力を活用することで38のスタイルを持つスタイル化された対話データセットであるStyleEvalを導入する。
本稿では,多タスク型学習戦略と再帰型メモリ戦略を通したスタイル化対話フレームワークであるStyleChatを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:26:18Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Contextual Knowledge Learning For Dialogue Generation [13.671946960656467]
モデルトレーニングの不可欠な部分として,文脈と知識の重み付けに対する新しいアプローチを提案する。
我々は、文脈と知識のための潜在ベクトルを含む文脈知識学習プロセスを通じて、モデルトレーニングをガイドする。
論文 参考訳(メタデータ) (2023-05-29T16:54:10Z) - Learning to Express in Knowledge-Grounded Conversation [62.338124154016825]
本稿では,知識表現の2つの側面,すなわち各部分における内容の応答構造とスタイルについて考察する。
本稿では, セグメンテーションに基づく生成モデルを提案し, 応答における知識表現の基盤となるパターンを発見するために, 変動的アプローチを用いてモデルを最適化する。
論文 参考訳(メタデータ) (2022-04-12T13:43:47Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。