Fugu-MT 論文翻訳(概要): EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization

論文の概要: EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization

arxiv url: http://arxiv.org/abs/2406.19071v1
Date: Thu, 27 Jun 2024 10:41:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 14:27:46.538053
Title: EmPO: Theory-Driven Dataset Construction for Empathetic Response Generation through Preference Optimization
Title（参考訳）: EmPO: 優先最適化による共感応答生成のための理論駆動型データセット構築
Authors: Ondrej Sotolar,
Abstract要約: 共感反応生成は会話エージェントの望ましい側面である。本稿では,理論駆動の選好データセットを構築し,LLMを選好最適化アルゴリズムと整合させる手法を提案する。すべてのデータセット、ソースコード、モデルを公開しています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Empathetic response generation is a desirable aspect of conversational agents, crucial for facilitating engaging and emotionally intelligent multi-turn conversations between humans and machines. Leveraging large language models for this task has shown promising results, yet challenges persist in ensuring both the empathetic quality of the responses and retention of the generalization performance of the models. In this paper, we propose a novel approach where we construct theory-driven preference datasets and use them to align LLMs with preference optimization algorithms to address these challenges. To measure empathetic response generation, we employ the EmpatheticDialogues dataset, assessing empathy with the diff-EPITOME and BERTscore metrics, and evaluate the generalization performance on the MMLU benchmark. We make all datasets, source code, and models publicly available.
Abstract（参考訳）: 共感的応答生成は会話エージェントの望ましい側面であり、人間と機械間のエンゲージメントと感情的なマルチターン会話を促進するために不可欠である。このタスクで大規模言語モデルを活用することで有望な結果が得られたが、応答の共感的品質とモデルの一般化性能の維持の両面において課題が続いている。本稿では,理論駆動の選好データセットを構築し,LLMと選好最適化アルゴリズムを整合させてこれらの課題に対処する手法を提案する。共感応答の生成を計測するために,エンパテティックダイアログデータセットを使用し,diff-EPITOMEおよびBERTscoreメトリクスとの共感を評価し,MMLUベンチマーク上での一般化性能を評価する。すべてのデータセット、ソースコード、モデルを公開しています。

関連論文リスト

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文参考訳（メタデータ） (2025-02-26T17:08:46Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
Socio-Emotional Response Generation: A Human Evaluation Protocol for LLM-Based Conversational Systems [9.101091541480434]
本稿では、応答生成の前に社会情緒戦略を計画する中間段階を含むニューラルアーキテクチャを提案する。本研究は, 予測された戦略ラベルの列を予測し, このシーケンスを用いて応答を生成することにより, 直接的なエンドツーエンド生成方式よりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-11-26T08:15:36Z)
Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文参考訳（メタデータ） (2024-10-04T17:48:29Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
本稿では,最も情報に富む応答ペアの獲得に焦点をあてた,高品質なトレーニングデータセットのサンプリング戦略を提案する。実験結果から, 異なる応答対を選択することにより, LLMの直列化が促進されることが示唆された。以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。
論文参考訳（メタデータ） (2024-09-17T22:40:54Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文参考訳（メタデータ） (2024-03-13T17:29:45Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。