論文の概要: EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.19071v2
- Date: Tue, 17 Sep 2024 14:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:51:13.698782
- Title: EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization
- Title(参考訳): EmPO: 優先最適化による共感応答生成のための感情接地
- Authors: Ondrej Sotolar, Vojtech Formanek, Alok Debnath, Allison Lahnala, Charles Welch, Lucie FLek,
- Abstract要約: 共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
- 参考スコア(独自算出の注目度): 9.934277461349696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. We propose a novel approach where we construct theory-driven preference datasets based on emotion grounding and use them to align LLMs with preference optimization algorithms to address these challenges. To evaluate empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-Epitome and BERTscore metrics and with multi-dimensional human evaluation. Additionally, we measure diversity and emotional valence using feature-based methods. We also evaluate the impact of training on the generalization performance using the MMLU benchmark and tasks from the Open LLM Leaderboard. The results show that LLMs can be aligned for empathetic response generation by preference optimization while retaining their general performance and that emotion grounding can guide preference dataset creation. We make all datasets, source code, and models publicly available. https://github.com/justtherightsize/empo
- Abstract(参考訳): 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。
このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。
そこで我々は,感情基盤に基づく理論駆動の嗜好データセットを構築し,それらの課題に対処するためにLLMと選好最適化アルゴリズムを整合させる手法を提案する。
共感的応答生成を評価するために,共感的ダイアログデータセットを用い,diff-Epitome と BERTscore のメトリクスと多次元人的評価を用いて共感を評価する。
さらに,特徴に基づく手法を用いて,多様性と感情価を測定した。
また、MMLUベンチマークとOpen LLM Leaderboardのタスクを用いて、トレーニングが一般化性能に与える影響を評価する。
その結果、LLMは、一般的な性能を維持しつつ、好みの最適化によって共感的応答を生成することができ、感情のグラウンド化は好みのデータセット生成を導くことができることがわかった。
すべてのデータセット、ソースコード、モデルを公開しています。
https://github.com/justtherightsize/empo
関連論文リスト
- Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
本稿では,最も情報に富む応答ペアの獲得に焦点をあてた,高品質なトレーニングデータセットのサンプリング戦略を提案する。
実験結果から, 異なる応答対を選択することにより, LLMの直列化が促進されることが示唆された。
以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。