論文の概要: One Goal, Many Challenges: Robust Preference Optimization Amid Content-Aware and Multi-Source Noise
- arxiv url: http://arxiv.org/abs/2503.12301v1
- Date: Sun, 16 Mar 2025 00:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:28.985826
- Title: One Goal, Many Challenges: Robust Preference Optimization Amid Content-Aware and Multi-Source Noise
- Title(参考訳): コンテンツ認識とマルチソースノイズの中におけるロバストな優先度最適化
- Authors: Amirabbas Afzali, Amirhossein Afsharrad, Seyed Shahabeddin Mousavi, Sanjay Lall,
- Abstract要約: 本稿では,CNRPO(Content-Aware Noise-Resilient Preference Optimization)を提案する。
バックドア攻撃機構を利用して、1つのモデル内で様々なノイズ源を効率よく学習し制御する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have made significant strides in generating human-like responses, largely due to preference alignment techniques. However, these methods often assume unbiased human feedback, which is rarely the case in real-world scenarios. This paper introduces Content-Aware Noise-Resilient Preference Optimization (CNRPO), a novel framework that addresses multiple sources of content-dependent noise in preference learning. CNRPO employs a multi-objective optimization approach to separate true preferences from content-aware noises, effectively mitigating their impact. We leverage backdoor attack mechanisms to efficiently learn and control various noise sources within a single model. Theoretical analysis and extensive experiments on different synthetic noisy datasets demonstrate that CNRPO significantly improves alignment with primary human preferences while controlling for secondary noises and biases, such as response length and harmfulness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に好みのアライメント技術によって、人間のような応答を生成するために大きな進歩を遂げてきた。
しかしながら、これらの手法は、現実のシナリオではめったにないような、偏見のない人間のフィードバックを仮定することが多い。
本稿では,CNRPO(Content-Aware Noise-Resilient Preference Optimization)を提案する。
CNRPOは、コンテンツ認識ノイズから真の好みを分離するために、多目的最適化アプローチを採用し、その影響を効果的に緩和する。
バックドア攻撃機構を利用して、1つのモデル内で様々なノイズ源を効率よく学習し制御する。
異なる合成ノイズデータセットに関する理論的解析と広範な実験により、CNRPOは二次ノイズやバイアス(応答長や有害性など)を制御しながら、一次人間の嗜好との整合性を著しく改善することが示された。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - When SparseMoE Meets Noisy Interactions: An Ensemble View on Denoising Recommendation [3.050721435894337]
本稿では,適応アンサンブル学習(Adaptive Ensemble Learning, AEL)を提案する。
AELはスパースゲーティングネットワークを脳として採用し、適切な認知能力の合成に適した専門家を選択する。
モデル複雑性のアンサンブル学習の欠点を解決するために,コンポーネントを積み重ねてサブレコメンダを作成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T12:55:34Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Multi-Objective Controller Synthesis with Uncertain Human Preferences [1.580774794371876]
我々はマルコフ決定過程の多目的合成制御系において不確定な人間選好の概念を定式化する。
提案手法は混合整数線形プログラミング(MILP)に基づいて,最適に許容されるマルチストラテジーを合成する。
論文 参考訳(メタデータ) (2021-05-10T20:41:05Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。