論文の概要: Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System
- arxiv url: http://arxiv.org/abs/2306.09821v2
- Date: Thu, 19 Oct 2023 16:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:00:51.746432
- Title: Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System
- Title(参考訳): ユーザフィードバックの可能性を解き放つ:対話システム強化のためのユーザシミュレータとしての大規模言語モデル活用
- Authors: Zhiyuan Hu, Yue Feng, Anh Tuan Luu, Bryan Hooi, Aldo Lipani
- Abstract要約: 本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
- 参考スコア(独自算出の注目度): 65.93577256431125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue systems and large language models (LLMs) have gained considerable
attention. However, the direct utilization of LLMs as task-oriented dialogue
(TOD) models has been found to underperform compared to smaller task-specific
models. Nonetheless, it is crucial to acknowledge the significant potential of
LLMs and explore improved approaches for leveraging their impressive abilities.
Motivated by the goal of leveraging LLMs, we propose an alternative approach
called User-Guided Response Optimization (UGRO) to combine it with a smaller
TOD model. This approach uses LLM as annotation-free user simulator to assess
dialogue responses, combining them with smaller fine-tuned end-to-end TOD
models. By utilizing the satisfaction feedback generated by LLMs, UGRO further
optimizes the supervised fine-tuned TOD model. Specifically, the TOD model
takes the dialogue history as input and, with the assistance of the user
simulator's feedback, generates high-satisfaction responses that meet the
user's requirements. Through empirical experiments on two TOD benchmarks, we
validate the effectiveness of our method. The results demonstrate that our
approach outperforms previous state-of-the-art (SOTA) results.
- Abstract(参考訳): 対話システムと大規模言語モデル(LLM)が注目されている。
しかし、タスク指向対話(TOD)モデルとしてのLLMの直接利用は、タスク固有モデルに比べて性能が劣っていることが判明した。
それにもかかわらず、LLMの潜在能力を認め、その優れた能力を活用するための改良されたアプローチを検討することが重要である。
llmsを活用するという目標に動機づけられ,より小さなtodモデルと組み合わせるために,ugro(user-guided response optimization)と呼ばれる代替手法を提案する。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
LLMによって生成された満足度フィードバックを利用することで、UGROはさらに教師付き微調整TODモデルを最適化する。
具体的には、TODモデルは対話履歴を入力として取り、ユーザシミュレータのフィードバックの助けを借りて、ユーザの要求を満たす高満足度応答を生成する。
2つのTODベンチマークの実証実験を通じて,本手法の有効性を検証した。
その結果,従来のSOTA(State-of-the-art)よりも優れた結果が得られた。
関連論文リスト
- Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models [41.38520841504846]
大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。
アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。
Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
論文 参考訳(メタデータ) (2024-02-22T03:14:03Z) - Reliable LLM-based User Simulator for Task-Oriented Dialogue Systems [2.788542465279969]
本稿では,ドメイン対応ユーザシミュレータDAUSを紹介する。
タスク指向対話の実例について,DAUSを微調整する。
2つの関連するベンチマークの結果は、ユーザ目標達成の点で大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-20T20:57:47Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - User Simulation with Large Language Models for Evaluating Task-Oriented
Dialogue [10.336443286833145]
本稿では,最近開発された大規模事前学習言語モデル(LLM)を用いた新しいユーザシミュレータを提案する。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり,本研究の目的は,TODシステムとのヒューマンインタラクションで観測されるようなGSRを実現するシステムである。
論文 参考訳(メタデータ) (2023-09-23T02:04:57Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。