論文の概要: On the Effectiveness of Offline RL for Dialogue Response Generation
- arxiv url: http://arxiv.org/abs/2307.12425v1
- Date: Sun, 23 Jul 2023 20:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:09:33.953925
- Title: On the Effectiveness of Offline RL for Dialogue Response Generation
- Title(参考訳): 対話応答生成におけるオフラインRLの有効性について
- Authors: Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q. Weinberger, Ryan
McDonald
- Abstract要約: このような目的を最大化するために,様々なオフライン強化学習法(RL)の有効性を検討した。
オフラインRLは、トレーニング不安定を誘発したり、実践的なトレーニング予算を犠牲にすることなく、教師の強制よりも明らかなパフォーマンス改善を示す。
- 参考スコア(独自算出の注目度): 33.23689417744758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common training technique for language models is teacher forcing (TF). TF
attempts to match human language exactly, even though identical meanings can be
expressed in different ways. This motivates use of sequence-level objectives
for dialogue response generation. In this paper, we study the efficacy of
various offline reinforcement learning (RL) methods to maximize such
objectives. We present a comprehensive evaluation across multiple datasets,
models, and metrics. Offline RL shows a clear performance improvement over
teacher forcing while not inducing training instability or sacrificing
practical training budgets.
- Abstract(参考訳): 言語モデルの一般的な訓練技法は、教師強制(TF)である。
TFは、同じ意味を異なる方法で表現できるにもかかわらず、人間の言語を正確に一致させようとする。
これは対話応答生成のためのシーケンスレベルの目的の使用を動機付ける。
本稿では,これらの目的を最大化するための様々なオフライン強化学習(rl)手法の有効性について検討する。
複数のデータセット、モデル、メトリクスにわたって包括的な評価を行う。
オフラインRLは、トレーニング不安定を誘発したり、実践的なトレーニング予算を犠牲にすることなく、教師の強制よりも明確なパフォーマンス向上を示す。
関連論文リスト
- MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared
Semantic Spaces [4.27038429382431]
我々は、オフライン強化学習をマルチモーダル言語モデルと事前学習言語モデルを統合することで教師付き学習タスクに変換する。
提案手法では,画像から得られた状態情報と,テキストから得られた行動関連データを取り入れた。
提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-20T09:15:50Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - KRLS: Improving End-to-End Response Generation in Task Oriented Dialog
with Reinforced Keywords Learning [25.421649004269373]
タスク指向ダイアログ(TOD)では、強化学習アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。
オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。
MultiWoZデータセットの実験では、我々の新しいトレーニングアルゴリズムであるKeywords Reinforcement Learning with Next-word Smpling (KRLS)が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-30T06:27:46Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Multi-Task Learning based Online Dialogic Instruction Detection with
Pre-trained Language Models [34.66425105076059]
コントラッシブ・ロスによりカテゴリ間のマージンを大きくすることで、異なるクラスのインスタンスを識別する能力を向上するマルチタスク・パラダイムを提案する。
実世界のオンライン教育データセットを用いた実験により,本手法が代表的ベースラインよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-07-15T04:57:57Z) - A Brief Study on the Effects of Training Generative Dialogue Models with
a Semantic loss [37.8626106992769]
本研究は,モデルが相互に反応し,セマンティックな類似度にスコア付けするための学習目標を最小化する効果について考察する。
目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。
論文 参考訳(メタデータ) (2021-06-20T04:39:29Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。