論文の概要: PersoDPO: Scalable Preference Optimization for Instruction-Adherent, Persona-Grounded Dialogue via Multi-LLM Evaluation
- arxiv url: http://arxiv.org/abs/2602.04493v1
- Date: Wed, 04 Feb 2026 12:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.523738
- Title: PersoDPO: Scalable Preference Optimization for Instruction-Adherent, Persona-Grounded Dialogue via Multi-LLM Evaluation
- Title(参考訳): PersoDPO:マルチLLM評価による命令適応型ペルソナ周辺対話のためのスケーラブルな選好最適化
- Authors: Saleh Afzoon, MohammadHossein Ahmadi, Usman Naseem, Amin Beheshti,
- Abstract要約: PersoDPOはスケーラブルな選好最適化フレームワークである。
一貫性とパーソナライゼーションを目標とした評価指標と,長さ形式のコンプライアンス機能を統合する。
FoCusデータセットの実験は、PersoDPOフレームワークで微調整されたオープンソースの言語モデルが、強力なオープンソースベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 20.228114552545772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalization and contextual coherence are two essential components in building effective persona-grounded dialogue systems. These aspects play a crucial role in enhancing user engagement and ensuring responses are more relevant and consistent with user identity. However, recent studies indicate that open-source large language models (LLMs) continue to struggle to generate responses that are both contextually grounded and aligned with persona cues, despite exhibiting strong general conversational abilities like fluency and naturalness. We present PersoDPO, a scalable preference optimisation framework that uses supervision signals from automatic evaluations of responses generated by both closed-source and open-source LLMs to fine-tune dialogue models. The framework integrates evaluation metrics targeting coherence and personalization, along with a length-format compliance feature to promote instruction adherence. These signals are combined to automatically construct high-quality preference pairs without manual annotation, enabling a scalable and reproducible training pipeline. Experiments on the FoCus dataset show that an open-source language model fine-tuned with the PersoDPO framework consistently outperforms strong open-source baselines and a standard Direct Preference Optimization (DPO) variant across multiple evaluation dimensions.
- Abstract(参考訳): パーソナライゼーションとコンテキストコヒーレンスは、効果的なペルソナ地上対話システムを構築する上で不可欠な2つの要素である。
これらの側面は、ユーザのエンゲージメントを高め、応答がユーザアイデンティティとより関連性があり一貫性があることを保証する上で、重要な役割を担います。
しかし、最近の研究によると、オープンソースの大規模言語モデル(LLM)は、空虚さや自然さといった一般的な会話能力が強いにもかかわらず、文脈的に基礎化され、ペルソナの手がかりと整合する応答を生成するのに苦戦している。
PersoDPOは、クローズドソースとオープンソースの両方が生成する応答の自動評価から微調整対話モデルまで、監視信号を利用するスケーラブルな選好最適化フレームワークである。
このフレームワークは、コヒーレンスとパーソナライゼーションをターゲットとした評価指標と、命令の遵守を促進するための長大なコンプライアンス機能を統合する。
これらの信号を組み合わせることで、手動のアノテーションなしで高品質な好みペアを自動的に構築し、スケーラブルで再現可能なトレーニングパイプラインを可能にする。
FoCusデータセットの実験では、PersoDPOフレームワークで微調整されたオープンソース言語モデルが、複数の評価次元にわたって、強力なオープンソースベースラインと標準のDPO(Direct Preference Optimization)変異を一貫して上回っていることが示されている。
関連論文リスト
- POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - PREF: Reference-Free Evaluation of Personalised Text Generation in LLMs [32.27940625341602]
ユーザ中心の情報システムにはパーソナライズドテキスト生成が不可欠である。
textbfPersonalized textbfReference-free textbfEvaluation textbfFrameworkを紹介する。
論文 参考訳(メタデータ) (2025-08-08T14:32:31Z) - Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment [35.68913976348608]
本稿では,対話を通じてユーザプロファイルを反復的に推測・精査するRLPAフレームワークについて紹介する。
我々はQwen-2.5-3B-インストラクトを微調整することでRLPAをインスタンス化し、Qwen-RLPAはパーソナライズされた対話における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-21T12:38:36Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。