論文の概要: Configurable Preference Tuning with Rubric-Guided Synthetic Data
- arxiv url: http://arxiv.org/abs/2506.11702v1
- Date: Fri, 13 Jun 2025 12:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.776522
- Title: Configurable Preference Tuning with Rubric-Guided Synthetic Data
- Title(参考訳): Rubric-Guided Synthetic Dataによる設定可能な参照チューニング
- Authors: Víctor Gallego,
- Abstract要約: 本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。
トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
- 参考スコア(独自算出の注目度): 0.6526824510982799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models of human feedback for AI alignment, such as those underpinning Direct Preference Optimization (DPO), often bake in a singular, static set of preferences, limiting adaptability. This paper challenges the assumption of monolithic preferences by introducing Configurable Preference Tuning (CPT), a novel framework for endowing language models with the ability to dynamically adjust their behavior based on explicit, human-interpretable directives. CPT leverages synthetically generated preference data, conditioned on system prompts derived from structured, fine-grained rubrics that define desired attributes like writing style. By fine-tuning with these rubric-guided preferences, the LLM learns to modulate its outputs at inference time in response to the system prompt, without retraining. This approach not only offers fine-grained control but also provides a mechanism for modeling more nuanced and context-dependent human feedback. Several experimental artifacts, such as training code, generated datasets and fine-tuned models are released at https://github.com/vicgalle/configurable-preference-tuning
- Abstract(参考訳): AIアライメントのための人間のフィードバックのモデル、例えば、直接選好最適化(DPO)の基盤となっているモデルは、しばしば特異で静的な選好セットで焼かれ、適応性を制限する。
本稿では,言語モデルを実現するための新しいフレームワークであるConfigurable Preference Tuning (CPT)を導入することで,モノリシックな嗜好の仮定に挑戦する。
CPTは、システムプロンプトに条件付けされた合成された好みデータを活用する。
これらのルーリック誘導の好みを微調整することで、LLMはシステムプロンプトに応答して、再学習することなく、推論時に出力を変調する。
このアプローチはきめ細かい制御を提供するだけでなく、よりニュアンスでコンテキストに依存した人間のフィードバックをモデリングするためのメカニズムも提供する。
トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
関連論文リスト
- Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。