論文の概要: Leveraging Robust Optimization for LLM Alignment under Distribution Shifts
- arxiv url: http://arxiv.org/abs/2504.05831v1
- Date: Tue, 08 Apr 2025 09:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:22.615339
- Title: Leveraging Robust Optimization for LLM Alignment under Distribution Shifts
- Title(参考訳): 分散シフト下におけるLCMアライメントのロバスト最適化の活用
- Authors: Mingye Zhu, Yi Liu, Junbo Guo, Quan Wang, Yongdong Zhang, Zhendong Mao,
- Abstract要約: 大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。
近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.654823811482665
- License:
- Abstract: Large language models (LLMs) increasingly rely on preference alignment methods to steer outputs toward human values, yet these methods are often constrained by the scarcity of high-quality human-annotated data. To tackle this, recent approaches have turned to synthetic data generated by LLMs as a scalable alternative. However, synthetic data can introduce distribution shifts, compromising the nuanced human preferences that are essential for desirable outputs. In this paper, we propose a novel distribution-aware optimization framework that improves preference alignment in the presence of such shifts. Our approach first estimates the likelihood ratios between the target and training distributions leveraging a learned classifier, then it minimizes the worst-case loss over data regions that reflect the target human-preferred distribution. By explicitly prioritizing the target distribution during optimization, our method mitigates the adverse effects of distributional variation and enhances the generation of responses that faithfully reflect human values.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の値に対して出力をステアリングするための選好アライメント手法にますます依存しているが、これらの手法は高品質な人間の注釈付きデータの不足によって制約されることが多い。
この問題に対処するため、近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。
しかし、合成データは分布シフトを導入し、望ましい出力に欠かせない人間の嗜好を妥協する。
本稿では,そのようなシフトが存在する場合の優先順位調整を改善するための分散対応最適化フレームワークを提案する。
提案手法はまず,学習した分類器を応用した目標分布と訓練分布の確率比を推定し,対象の人為的分布を反映したデータ領域に対する最悪の損失を最小化する。
最適化中の対象分布を明示的に優先順位付けすることにより,分布変動の悪影響を軽減し,人間の価値観を忠実に反映する応答の生成を促進する。
関連論文リスト
- Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。
まず、確率分布に対する一般正規化損失最小化として問題を定式化する。
本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-02-05T07:35:15Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。