論文の概要: Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data
- arxiv url: http://arxiv.org/abs/2506.02018v1
- Date: Wed, 28 May 2025 07:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.785193
- Title: Enhancing Paraphrase Type Generation: The Impact of DPO and RLHF Evaluated with Human-Ranked Data
- Title(参考訳): パラフレーズ型生成の強化:DPOとRLHFが人間関係データに与える影響
- Authors: Christopher Lee Lübbers,
- Abstract要約: パラフレーズ化は、テキストの単純化、機械翻訳、質問応答などのアプリケーションを強化する意味を持つ。
既存のパラフレーズ型生成法は、自動化されたメトリクスと限定的な人手によるトレーニングデータに依存するため、人間の嗜好に反することが多い。
本研究は,人間のランク付けされたパラフレーズ型データセットを活用し,モデル出力と人間の判断を直接整合させるためにDPO(Direct Preference Optimization)を統合することで,このギャップに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Paraphrasing re-expresses meaning to enhance applications like text simplification, machine translation, and question-answering. Specific paraphrase types facilitate accurate semantic analysis and robust language models. However, existing paraphrase-type generation methods often misalign with human preferences due to reliance on automated metrics and limited human-annotated training data, obscuring crucial aspects of semantic fidelity and linguistic transformations. This study addresses this gap by leveraging a human-ranked paraphrase-type dataset and integrating Direct Preference Optimization (DPO) to align model outputs directly with human judgments. DPO-based training increases paraphrase-type generation accuracy by 3 percentage points over a supervised baseline and raises human preference ratings by 7 percentage points. A newly created human-annotated dataset supports more rigorous future evaluations. Additionally, a paraphrase-type detection model achieves F1 scores of 0.91 for addition/deletion, 0.78 for same polarity substitution, and 0.70 for punctuation changes. These findings demonstrate that preference data and DPO training produce more reliable, semantically accurate paraphrases, enabling downstream applications such as improved summarization and more robust question-answering. The PTD model surpasses automated metrics and provides a more reliable framework for evaluating paraphrase quality, advancing paraphrase-type research toward richer, user-aligned language generation and establishing a stronger foundation for future evaluations grounded in human-centric criteria.
- Abstract(参考訳): パラフレーズ化は、テキストの単純化、機械翻訳、質問応答などのアプリケーションを強化する意味を持つ。
特定のパラフレーズ型は、正確な意味分析と堅牢な言語モデルを促進する。
しかしながら、既存のパラフレーズ型生成法は、自動メトリクスと限定的な人間アノテーションによるトレーニングデータに依存し、意味的忠実さと言語的変換の重要な側面を隠蔽しているため、人間の嗜好に反することが多い。
本研究では,人間のランク付けされたパラフレーズ型データセットを活用し,モデル出力と人的判断を直接整合させるためにDPO(Direct Preference Optimization)を統合することにより,このギャップに対処する。
DPOベースのトレーニングは、教師付きベースライン上でパラフレーズ型生成の精度を3ポイント向上し、人間の嗜好評価を7ポイント向上させる。
新たに作成された人間アノテーションデータセットは、より厳密な将来の評価をサポートする。
さらに、パラフレーズ型検出モデルは、加算/削除のF1スコアが0.91、同じ極性置換の0.78、句読点変化の0.70となる。
これらの結果から、選好データとDPOトレーニングにより、より信頼性が高く、意味的に正確なパラフレーズが得られ、要約の改善やより堅牢な質問応答など、下流のアプリケーションを可能にした。
PTDモデルは、自動メトリクスを超越し、より信頼性の高いパラフレーズ品質評価フレームワークを提供し、よりリッチでユーザ指向の言語生成に向けたパラフレーズ型研究を推進し、人間中心の基準に基づく将来の評価のための強力な基盤を確立する。
関連論文リスト
- Token-Importance Guided Direct Preference Optimization [2.230951739798399]
本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:11:24Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。