Fugu-MT 論文翻訳(概要): Replicating Complex Dialogue Policy of Humans via Offline Imitation Learning with Supervised Regularization

論文の概要: Replicating Complex Dialogue Policy of Humans via Offline Imitation Learning with Supervised Regularization

arxiv url: http://arxiv.org/abs/2305.03987v1
Date: Sat, 6 May 2023 09:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 18:17:54.253911
Title: Replicating Complex Dialogue Policy of Humans via Offline Imitation Learning with Supervised Regularization
Title（参考訳）: 教師付き正規化によるオフライン模倣学習による人間の複合対話政策の再現
Authors: Zhoujian Sun, Chenyang Zhao, Zhengxing Huang, Nai Ding
Abstract要約: ポリシーラーニング(英: Policy Learning、PL)は、エージェントに各対話のターンでアクションをするように訓練するタスク指向の対話システムのモジュールである。教師付き学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。本研究では,実対話データセットからポリシーを学習するオフライン模倣学習モデルを提案する。
参考スコア（独自算出の注目度）: 7.151589223349882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Policy learning (PL) is a module of a task-oriented dialogue system that trains an agent to make actions in each dialogue turn. Imitating human action is a fundamental problem of PL. However, both supervised learning (SL) and reinforcement learning (RL) frameworks cannot imitate humans well. Training RL models require online interactions with user simulators, while simulating complex human policy is hard. Performances of SL-based models are restricted because of the covariate shift problem. Specifically, a dialogue is a sequential decision-making process where slight differences in current utterances and actions will cause significant differences in subsequent utterances. Therefore, the generalize ability of SL models is restricted because statistical characteristics of training and testing dialogue data gradually become different. This study proposed an offline imitation learning model that learns policy from real dialogue datasets and does not require user simulators. It also utilizes state transition information, which alleviates the influence of the covariate shift problem. We introduced a regularization trick to make our model can be effectively optimized. We investigated the performance of our model on four independent public dialogue datasets. The experimental result showed that our model performed better in the action prediction task.
Abstract（参考訳）: ポリシー学習(pl)は、エージェントが各対話の順番に行動を起こすように訓練するタスク指向対話システムのモジュールである。人間の行動の緩和はPLの根本的な問題である。しかし、教師あり学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。 RLモデルのトレーニングにはユーザシミュレータとのオンラインインタラクションが必要であり、複雑なヒューマンポリシーのシミュレーションは難しい。 SLモデルの性能は共変量シフトの問題により制限される。特に、対話は、現在の発話と行動のわずかな違いがその後の発話に大きな違いをもたらすような、逐次的な意思決定プロセスである。したがって, SLモデルの一般化能力は, 学習とテストの対話データの統計的特性が徐々に異なるため, 制限される。本研究では,実際の対話データセットからポリシーを学習し,ユーザシミュレータを必要としないオフライン模倣学習モデルを提案する。また、状態遷移情報を利用して、共変量シフト問題の影響を軽減する。私たちはモデルを効果的に最適化できるように正規化のトリックを導入しました。 4つの独立した公開対話データセットにおけるモデルの性能について検討した。実験の結果, 行動予測タスクにおいて, モデルの性能は良好であった。

関連論文リスト

Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。 SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文参考訳（メタデータ） (2025-04-11T14:49:33Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-18T06:27:26Z)
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文参考訳（メタデータ） (2024-06-17T18:01:32Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文参考訳（メタデータ） (2023-10-24T17:46:12Z)
Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文参考訳（メタデータ） (2023-08-23T10:41:07Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Stabilized In-Context Learning with Pre-trained Language Models for Few Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文参考訳（メタデータ） (2023-02-12T15:05:10Z)
CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文参考訳（メタデータ） (2022-04-18T17:43:21Z)
Adaptive Dialog Policy Learning with Hindsight and User Modeling [10.088347529930129]
シミュレーションと実ユーザの両方から,ダイアログエージェントが後見で適応的に学習できるアルゴリズムLHUAを開発した。実験結果から、LHUAは成功率と政策品質において、文献の競争基準よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2020-05-07T07:43:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。