論文の概要: EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.19071v2
- Date: Tue, 17 Sep 2024 14:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:51:13.698782
- Title: EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization
- Title(参考訳): EmPO: 優先最適化による共感応答生成のための感情接地
- Authors: Ondrej Sotolar, Vojtech Formanek, Alok Debnath, Allison Lahnala, Charles Welch, Lucie FLek,
- Abstract要約: 共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
- 参考スコア(独自算出の注目度): 9.934277461349696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. We propose a novel approach where we construct theory-driven preference datasets based on emotion grounding and use them to align LLMs with preference optimization algorithms to address these challenges. To evaluate empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-Epitome and BERTscore metrics and with multi-dimensional human evaluation. Additionally, we measure diversity and emotional valence using feature-based methods. We also evaluate the impact of training on the generalization performance using the MMLU benchmark and tasks from the Open LLM Leaderboard. The results show that LLMs can be aligned for empathetic response generation by preference optimization while retaining their general performance and that emotion grounding can guide preference dataset creation. We make all datasets, source code, and models publicly available. https://github.com/justtherightsize/empo
- Abstract(参考訳): 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。
このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。
そこで我々は,感情基盤に基づく理論駆動の嗜好データセットを構築し,それらの課題に対処するためにLLMと選好最適化アルゴリズムを整合させる手法を提案する。
共感的応答生成を評価するために,共感的ダイアログデータセットを用い,diff-Epitome と BERTscore のメトリクスと多次元人的評価を用いて共感を評価する。
さらに,特徴に基づく手法を用いて,多様性と感情価を測定した。
また、MMLUベンチマークとOpen LLM Leaderboardのタスクを用いて、トレーニングが一般化性能に与える影響を評価する。
その結果、LLMは、一般的な性能を維持しつつ、好みの最適化によって共感的応答を生成することができ、感情のグラウンド化は好みのデータセット生成を導くことができることがわかった。
すべてのデータセット、ソースコード、モデルを公開しています。
https://github.com/justtherightsize/empo
関連論文リスト
- Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。