論文の概要: Limitation Learning: Catching Adverse Dialog with GAIL
- arxiv url: http://arxiv.org/abs/2508.11767v1
- Date: Fri, 15 Aug 2025 18:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.364784
- Title: Limitation Learning: Catching Adverse Dialog with GAIL
- Title(参考訳): 限界学習:GAILを用いた逆対話のキャッチ
- Authors: Noah Kasmanoff, Rahul Zalkikar,
- Abstract要約: 私たちは会話に模倣学習を適用します。
我々は、通知(入力状態)を受けたユーザと対話できるポリシーを回復する。
ポリシーは有効であるが,ダイアログモデルの限界を示す識別器から結果を回収する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning is a proven method for creating a policy in the absence of rewards, by leveraging expert demonstrations. In this work, we apply imitation learning to conversation. In doing so, we recover a policy capable of talking to a user given a prompt (input state), and a discriminator capable of classifying between expert and synthetic conversation. While our policy is effective, we recover results from our discriminator that indicate the limitations of dialog models. We argue that this technique can be used to identify adverse behavior of arbitrary data models common for dialog oriented tasks.
- Abstract(参考訳): 模倣学習は、専門家によるデモンストレーションを活用することで、報酬のない政策を作成するための実証済みの方法である。
本研究では,会話に模倣学習を適用する。
そこで我々は,プロンプト(入力状態)を与えられたユーザと対話可能なポリシと,専門家と合成会話を分類可能な識別器を回復する。
ポリシーは有効であるが,ダイアログモデルの限界を示す識別器から結果を回収する。
この手法は、対話指向タスクに共通する任意のデータモデルの有害な振る舞いを特定するのに利用できると論じる。
関連論文リスト
- Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Multi-Action Dialog Policy Learning from Logged User Feedback [28.4271696269512]
マルチアクションダイアログポリシーは、ターン毎に複数のアトミックダイアログアクションを生成する。
データ制限のため、既存のポリシーモデルは、目に見えないダイアログフローに対してあまり一般化しない。
暗黙的かつ暗黙的なターンレベルのユーザフィードバックでマルチアクションダイアログポリシー学習を改善するためにBanditMatchを提案する。
論文 参考訳(メタデータ) (2023-02-27T04:01:28Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - Towards Large-Scale Interpretable Knowledge Graph Reasoning for Dialogue
Systems [109.16553492049441]
よりスケーラブルで一般化可能な対話システムに知識推論機能を組み込む新しい手法を提案する。
我々の知識を最大限に活用するために、変圧器モデルが微分可能な知識グラフを解析して応答を生成するのは、これが初めてである。
論文 参考訳(メタデータ) (2022-03-20T17:51:49Z) - Causal-aware Safe Policy Improvement for Task-oriented dialogue [45.88777832381149]
我々はタスク指向対話政策学習のためのバッチrlフレームワークを提案する:causal safe policy improvement (caspi)
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-10T22:34:28Z) - Dialog Policy Learning for Joint Clarification and Active Learning
Queries [24.420113907842147]
我々は階層的な対話ポリシーを訓練し、明確化と活発な学習の両方を共同で行う。
本研究では,これらの機能の一つあるいは両方に対して静的なダイアログポリシーを使用することよりも,対話ポリシーの明確化と能動的学習が効果的であることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:53:21Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。