論文の概要: Preference Robustness for DPO with Applications to Public Health
- arxiv url: http://arxiv.org/abs/2509.02709v1
- Date: Tue, 02 Sep 2025 18:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.29694
- Title: Preference Robustness for DPO with Applications to Public Health
- Title(参考訳): DPOの優先ロバスト性と公衆衛生への応用
- Authors: Cheol Woo Kim, Shresth Verma, Mauricio Tec, Milind Tambe,
- Abstract要約: 直接選好最適化(DPO)に基づく頑健な微調整アルゴリズムDPO-PROを提案する。
DPO-PROを,非営利組織ARMMANが運営する実世界の母体保健プログラムで評価した。
- 参考スコア(独自算出の注目度): 26.99327564250612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study an LLM fine-tuning task for designing reward functions for sequential resource allocation problems in public health, guided by human preferences expressed in natural language. This setting presents a challenging testbed for alignment due to complex and ambiguous objectives and limited data availability. We propose DPO-PRO, a robust fine-tuning algorithm based on Direct Preference Optimization (DPO), which accounts for uncertainty in the preference distribution using a lightweight Distributionally Robust Optimization (DRO) formulation. Unlike prior DRO-based DPO methods, DPO-PRO is significantly less conservative. We evaluate DPO-PRO on a real-world maternal mobile health program operated by the non-profit organization ARMMAN, as well as on standard alignment benchmarks. Experimental results demonstrate that our method consistently improves robustness to noisy preference signals compared to existing DPO variants. Moreover, DPO-PRO achieves comparable performance to prior self-reflection-based baseline for reward function design, while requiring significantly lower inference-time cost.
- Abstract(参考訳): 自然言語で表現された人間の嗜好によって導かれる公衆衛生における逐次的資源配分問題に対する報酬関数を設計するためのLLM微調整タスクについて検討する。
この設定は、複雑で曖昧な目的と限られたデータ可用性のために、アライメントのための挑戦的なテストベッドを提供する。
DPO-PROは、DPO(Direct Preference Optimization)に基づく頑健な微調整アルゴリズムであり、軽量分布ロバスト最適化(DRO)を用いた優先分布の不確かさを考慮に入れている。
従来のDROベースのDPO法とは異なり、DPO-PROは極めて保守的ではない。
DPO-PROは、非営利組織ARMMANが運営する実世界の母体保健プログラム、および標準アライメントベンチマークで評価される。
実験結果から,提案手法は既存のDPO変種と比較して,ノイズの多い選好信号に対するロバスト性を常に改善することが示された。
さらに、DPO-PROは、従来の自己回帰に基づく報酬関数設計のベースラインに匹敵する性能を達成し、推論時間コストを大幅に削減する。
関連論文リスト
- Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。