論文の概要: Hummer: Towards Limited Competitive Preference Dataset
- arxiv url: http://arxiv.org/abs/2405.11647v1
- Date: Sun, 19 May 2024 18:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:53:04.996259
- Title: Hummer: Towards Limited Competitive Preference Dataset
- Title(参考訳): Hummer: 限定的な競合的推論データセットを目指して
- Authors: Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng,
- Abstract要約: 我々は、嗜好データセット内の競合の度合いを定量化するために、新しいメトリクスAlignment Dimension Conflictを導入する。
我々は、textttHummerとその細粒度の変種である textttHummer-F を、コンフリクトアライメントの少ない革新的なペアワイズ選好データセットとして提示する。
- 参考スコア(独自算出の注目度): 19.03597445162459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
- Abstract(参考訳): 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。
しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。
本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。
次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。
texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。
さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。
このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。
関連論文リスト
- Federated LLMs Fine-tuned with Adaptive Importance-Aware LoRA [24.871424801066006]
LLM(Large Language Models)のフェデレートされた微調整は、データプライバシを保持しながら、さまざまなデータセットにまたがるタスク固有の適応を可能にする。
ヘテロジニアス適応型低ランク適応(LoRA)ファインチューニングLDMフレームワーク(HAFL)を提案する。
提案手法は,低通信サイズで迅速に収束し,クライアントへのモデル配信時の性能劣化を回避する。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。
SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-10-12T04:17:28Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-16T18:48:30Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing [8.959228247984337]
本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。
提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
論文 参考訳(メタデータ) (2022-09-13T22:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。