論文の概要: Hummer: Towards Limited Competitive Preference Dataset
- arxiv url: http://arxiv.org/abs/2405.11647v1
- Date: Sun, 19 May 2024 18:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:53:04.996259
- Title: Hummer: Towards Limited Competitive Preference Dataset
- Title(参考訳): Hummer: 限定的な競合的推論データセットを目指して
- Authors: Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng,
- Abstract要約: 我々は、嗜好データセット内の競合の度合いを定量化するために、新しいメトリクスAlignment Dimension Conflictを導入する。
我々は、textttHummerとその細粒度の変種である textttHummer-F を、コンフリクトアライメントの少ない革新的なペアワイズ選好データセットとして提示する。
- 参考スコア(独自算出の注目度): 19.03597445162459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
- Abstract(参考訳): 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。
しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。
本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。
次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。
texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。
さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。
このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデルアタック(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Uncertainty-Guided Alignment for Unsupervised Domain Adaptation in
Regression [5.939858158928473]
Unsupervised Domain Adaptation for Regressionは、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを適応させることを目標としている。
近年のUDARの研究は、主に部分空間のアライメントに焦点を当て、特徴空間全体の中で選択された部分空間のアライメントを含む。
本研究では,不確実性からのガイダンスを取り入れたUDARの効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-24T14:55:02Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - A Robust Negative Learning Approach to Partial Domain Adaptation Using
Source Prototypes [0.8895157045883034]
この研究は、負の転送問題を緩和する堅牢な部分的ドメイン適応(PDA)フレームワークを提案する。
それは多様で相補的なラベルフィードバックを含み、誤ったフィードバックの効果を緩和し、擬似ラベル改善を促進する。
我々は,部分領域適応タスクを網羅するアブレーション解析を含む包括的実験を行った。
論文 参考訳(メタデータ) (2023-09-07T07:26:27Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。