論文の概要: Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner
- arxiv url: http://arxiv.org/abs/2406.11978v1
- Date: Mon, 17 Jun 2024 18:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:26:41.626553
- Title: Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner
- Title(参考訳): 対話行動トークン:マルチターンプランナを用いたゴール指向対話におけるステアリング言語モデル
- Authors: Kenneth Li, Yiming Wang, Fernanda Viégas, Martin Wattenberg,
- Abstract要約: 本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
- 参考スコア(独自算出の注目度): 51.77263363285369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach called Dialogue Action Tokens (DAT) that adapts language model agents to plan goal-directed dialogues. The core idea is to treat each utterance as an action, thereby converting dialogues into games where existing approaches such as reinforcement learning can be applied. Specifically, we freeze a pretrained language model and train a small planner model that predicts a continuous action vector, used for controlled generation in each round. This design avoids the problem of language degradation under reward optimization. When evaluated on the Sotopia platform for social simulations, the DAT-steered LLaMA model surpasses GPT-4's performance. We also apply DAT to steer an attacker language model in a novel multi-turn red-teaming setting, revealing a potential new attack surface.
- Abstract(参考訳): 本稿では,対話行動トークン(DAT)と呼ばれる言語モデルエージェントを用いて,目標指向対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
具体的には、事前訓練された言語モデルを凍結し、各ラウンドで制御された生成に使用される連続的な行動ベクトルを予測する小さなプランナーモデルを訓練する。
この設計は、報酬最適化の下での言語劣化の問題を回避している。
ソーシャルシミュレーションのためのSotopiaプラットフォーム上での評価では、DATステアリングされたLLaMAモデルがGPT-4の性能を上回っている。
また, DATを用いて, 新たなマルチターン・リピート・セッティングにおいて, 攻撃言語モデルを操り, 潜在的に新たな攻撃面を明らかにする。
関連論文リスト
- Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for
Task-Oriented Dialogue [20.79359173822053]
本稿では,対話前学習モデルFutureTODを提案する。
我々の直感は、良い対話表現はどちらも局所的な文脈情報を学び、将来の情報を予測することである。
論文 参考訳(メタデータ) (2023-06-17T10:40:07Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Post-Training Dialogue Summarization using Pseudo-Paraphrasing [12.083992819138716]
本稿では,対話から物語への言い換えとして,事前訓練済み言語モデル(PLM)を提案する。
総合的な実験により,本手法は対話要約におけるバニラPLMを大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-04-28T13:42:19Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - TurnGPT: a Transformer-based Language Model for Predicting Turn-taking
in Spoken Dialog [2.2716975311837357]
音声対話におけるターンシフトを予測するためのトランスフォーマーベース言語モデルであるTurnGPTを導入する。
このモデルは、様々な文章と音声の対話データセットに基づいて訓練され、評価されている。
論文 参考訳(メタデータ) (2020-10-21T09:58:39Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。