論文の概要: ProDS: Preference-oriented Data Selection for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2505.12754v1
- Date: Mon, 19 May 2025 06:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.441776
- Title: ProDS: Preference-oriented Data Selection for Instruction Tuning
- Title(参考訳): ProDS: インストラクションチューニングのための優先度指向データ選択
- Authors: Wenya Guo, Zhengkun Zhang, Xumeng Liu, Ying Zhang, Ziyu Lu, Haoze Zhu, Xubo Liu, Ruxue Yan,
- Abstract要約: 本稿では,ターゲットセットで観測された嗜好と整合性に基づいてトレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。
私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
- 参考スコア(独自算出の注目度): 16.416482636797504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction data selection aims to identify a high-quality subset from the training set that matches or exceeds the performance of the full dataset on target tasks. Existing methods focus on the instruction-to-response mapping, but neglect the human preference for diverse responses. In this paper, we propose Preference-oriented Data Selection method (ProDS) that scores training samples based on their alignment with preferences observed in the target set. Our key innovation lies in shifting the data selection criteria from merely estimating features for accurate response generation to explicitly aligning training samples with human preferences in target tasks. Specifically, direct preference optimization (DPO) is employed to estimate human preferences across diverse responses. Besides, a bidirectional preference synthesis strategy is designed to score training samples according to both positive preferences and negative preferences. Extensive experimental results demonstrate our superiority to existing task-agnostic and targeted methods.
- Abstract(参考訳): インストラクションデータの選択は、ターゲットタスクの完全なデータセットのパフォーマンスにマッチまたは超えるトレーニングセットから、高品質なサブセットを特定することを目的としている。
既存の手法は、命令対応答マッピングに重点を置いているが、多様な応答に対する人間の好みを無視している。
本稿では,ターゲットセットで観測された嗜好と整合性に基づいて,トレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。
私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
具体的には、多種多様な反応に対する人間の嗜好を推定するために、直接選好最適化(DPO)を用いる。
さらに、双方向の選好合成戦略は、正の選好と負の選好の両方に応じてトレーニングサンプルをスコアするように設計されている。
大規模な実験結果から,既存のタスク非依存的・対象的手法に対する優位性が示された。
関連論文リスト
- Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T04:22:53Z) - Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.863492060519157]
本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。
本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:11:58Z) - Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文 参考訳(メタデータ) (2025-02-24T04:22:57Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。
本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。
提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T05:54:17Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。