論文の概要: Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression
- arxiv url: http://arxiv.org/abs/2501.12698v1
- Date: Wed, 22 Jan 2025 08:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:12.652786
- Title: Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression
- Title(参考訳): 総合的対話印象向上のためのAIフィードバックによる対話システムの訓練
- Authors: Kai Yoshida, Masahiro Mizukami, Seiya Kawano, Canasai Kruengkrai, Hiroaki Sugiyama, Koichiro Yoshino,
- Abstract要約: 本研究は、対話応答を評価するために、対話全体の印象に関連する12の指標に対応する報酬モデルを構築した。
システム印象を改善するために,報酬モデル信号を用いて対話モデルを調整した。
- 参考スコア(独自算出の注目度): 9.005722141359675
- License:
- Abstract: To improve user engagement during conversations with dialogue systems, we must improve individual dialogue responses and dialogue impressions such as consistency, personality, and empathy throughout the entire dialogue. While such dialogue systems have been developing rapidly with the help of large language models (LLMs), reinforcement learning from AI feedback (RLAIF) has attracted attention to align LLM-based dialogue models for such dialogue impressions. In RLAIF, a reward model based on another LLM is used to create a training signal for an LLM-based dialogue model using zero-shot/few-shot prompting techniques. However, evaluating an entire dialogue only by prompting LLMs is challenging. In this study, the supervised fine-tuning (SFT) of LLMs prepared reward models corresponding to 12 metrics related to the impression of the entire dialogue for evaluating dialogue responses. We tuned our dialogue models using the reward model signals as feedback to improve the impression of the system. The results of automatic and human evaluations showed that tuning the dialogue model using our reward model corresponding to dialogue impression improved the evaluation of individual metrics and the naturalness of the dialogue response.
- Abstract(参考訳): 対話システムとの対話におけるユーザエンゲージメントを改善するためには、対話全体を通して、一貫性、個性、共感などの個別の対話応答や対話印象を改善する必要がある。
このような対話システムは大規模言語モデル(LLM)の助けを借りて急速に発展してきたが、AIフィードバックからの強化学習(RLAIF)が注目され、LLMベースの対話モデルにそのような対話インプレッションを合わせている。
RLAIFでは、別のLLMに基づく報酬モデルを使用して、ゼロショット/ファウショットプロンプト技術を用いたLLMベースの対話モデルのトレーニング信号を生成する。
しかし,LLMのプロンプトによる対話全体の評価は困難である。
本研究では,LLMの教師付き微調整(SFT)により,対話全体の印象に関連する12の指標に対応する報酬モデルを作成し,対話応答の評価を行った。
システム印象を改善するために,報酬モデル信号を用いて対話モデルを調整した。
自動評価と人的評価の結果から,対話印象に応じた報酬モデルを用いた対話モデルのチューニングにより,個々のメトリクスの評価と対話応答の自然性が改善された。
関連論文リスト
- DialogBench: Evaluating LLMs as Human-like Dialogue Systems [16.997134341787486]
大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。
本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
論文 参考訳(メタデータ) (2023-11-03T02:59:56Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - STRUDEL: Structured Dialogue Summarization for Dialogue Comprehension [42.57581945778631]
抽象的な対話要約は、自然言語処理における重要なスタンドアロンタスクとみなされてきた。
本稿では,新たな対話要約タスクであるSTRUctured DiaLoguE Summarizationを提案する。
変換器エンコーダ言語モデルの対話理解性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-24T04:39:54Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Post-Training Dialogue Summarization using Pseudo-Paraphrasing [12.083992819138716]
本稿では,対話から物語への言い換えとして,事前訓練済み言語モデル(PLM)を提案する。
総合的な実験により,本手法は対話要約におけるバニラPLMを大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-04-28T13:42:19Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Modeling and Utilizing User's Internal State in Movie Recommendation
Dialogue [17.87695990289955]
ユーザの内部状態(UIS)を対話でモデル化し,UISに基づいて応答を変更する対話システムを構築する。
モデル化されたUISアノテーションと対話コーパスでUIS推定器をトレーニングする。
また、各UISに応じてシステムの応答を変更する応答変更ルールを設計する。
論文 参考訳(メタデータ) (2020-12-05T20:50:53Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。