論文の概要: EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.19071v1
- Date: Thu, 27 Jun 2024 10:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:27:46.538053
- Title: EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization
- Title(参考訳): EmPO: 優先最適化による共感応答生成のための理論駆動型データセット構築
- Authors: Ondrej Sotolar,
- Abstract要約: 共感反応生成は会話エージェントの望ましい側面である。
本稿では,理論駆動の選好データセットを構築し,LLMを選好最適化アルゴリズムと整合させる手法を提案する。
すべてのデータセット、ソースコード、モデルを公開しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. In this paper, we propose a novel approach where we construct theory-driven preference datasets and use them to align LLMs with preference optimization algorithms to address these challenges. To measure empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-EPITOME and BERTscore metrics, and evaluate the generalization performance on the MMLU benchmark. We make all datasets, source code, and models publicly available.
- Abstract(参考訳): 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。
このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。
本稿では,理論駆動の選好データセットを構築し,LLMと選好最適化アルゴリズムを整合させてこれらの課題に対処する手法を提案する。
共感応答の生成を計測するために,エンパテティックダイアログデータセットを使用し,diff-EPITOMEおよびBERTscoreメトリクスとの共感を評価し,MMLUベンチマーク上での一般化性能を評価する。
すべてのデータセット、ソースコード、モデルを公開しています。
関連論文リスト
- Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。