論文の概要: ProDS: Preference-oriented Data Selection for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2505.12754v1
- Date: Mon, 19 May 2025 06:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.441776
- Title: ProDS: Preference-oriented Data Selection for Instruction Tuning
- Title(参考訳): ProDS: インストラクションチューニングのための優先度指向データ選択
- Authors: Wenya Guo, Zhengkun Zhang, Xumeng Liu, Ying Zhang, Ziyu Lu, Haoze Zhu, Xubo Liu, Ruxue Yan,
- Abstract要約: 本稿では,ターゲットセットで観測された嗜好と整合性に基づいてトレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。
私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
- 参考スコア(独自算出の注目度): 16.416482636797504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction data selection aims to identify a high-quality subset from the training set that matches or exceeds the performance of the full dataset on target tasks. Existing methods focus on the instruction-to-response mapping, but neglect the human preference for diverse responses. In this paper, we propose Preference-oriented Data Selection method (ProDS) that scores training samples based on their alignment with preferences observed in the target set. Our key innovation lies in shifting the data selection criteria from merely estimating features for accurate response generation to explicitly aligning training samples with human preferences in target tasks. Specifically, direct preference optimization (DPO) is employed to estimate human preferences across diverse responses. Besides, a bidirectional preference synthesis strategy is designed to score training samples according to both positive preferences and negative preferences. Extensive experimental results demonstrate our superiority to existing task-agnostic and targeted methods.
- Abstract(参考訳): インストラクションデータの選択は、ターゲットタスクの完全なデータセットのパフォーマンスにマッチまたは超えるトレーニングセットから、高品質なサブセットを特定することを目的としている。
既存の手法は、命令対応答マッピングに重点を置いているが、多様な応答に対する人間の好みを無視している。
本稿では,ターゲットセットで観測された嗜好と整合性に基づいて,トレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。
私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
具体的には、多種多様な反応に対する人間の嗜好を推定するために、直接選好最適化(DPO)を用いる。
さらに、双方向の選好合成戦略は、正の選好と負の選好の両方に応じてトレーニングサンプルをスコアするように設計されている。
大規模な実験結果から,既存のタスク非依存的・対象的手法に対する優位性が示された。
関連論文リスト
- Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文 参考訳(メタデータ) (2025-06-08T10:26:09Z) - Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。
提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。
実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T04:22:53Z) - Latent Embedding Adaptation for Human Preference Alignment in Diffusion Planners [16.863492060519157]
本研究は,自動意思決定システムにおける軌跡のパーソナライズという課題に対処する。
本研究では,個人の好みに迅速に適応できる資源効率の高い手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T05:11:58Z) - Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文 参考訳(メタデータ) (2025-02-24T04:22:57Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - TSDS: Data Selection for Task-Specific Model Finetuning [39.19448080265558]
タスク固有の微調整の有効性は、適切なトレーニングデータの選択に大きく依存する。
本稿では,タスク固有のモデル微調整のためのデータ選択フレームワークであるTSDS(Task-Specific Data Selection)を提案する。
提案手法で選択したデータを用いて,1%選択率で命令チューニングを行う場合,全データセットで処理性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T05:54:17Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Towards Comprehensive Preference Data Collection for Reward Modeling [15.495910034714187]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みの調整を容易にする。
そこで本研究では,プロセスを4段階に分解し,好みデータ収集のためのフレームワークを提案する。
この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
論文 参考訳(メタデータ) (2024-06-24T09:40:39Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。