Fugu-MT 論文翻訳(概要): Hummer: Towards Limited Competitive Preference Dataset

論文の概要: Hummer: Towards Limited Competitive Preference Dataset

arxiv url: http://arxiv.org/abs/2405.11647v1
Date: Sun, 19 May 2024 18:57:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 14:53:04.996259
Title: Hummer: Towards Limited Competitive Preference Dataset
Title（参考訳）: Hummer: 限定的な競合的推論データセットを目指して
Authors: Li Jiang, Yusen Wu, Junwu Xiong, Jingqing Ruan, Yichuan Ding, Qingpei Guo, Zujie Wen, Jun Zhou, Xiaotie Deng,
Abstract要約: 我々は、嗜好データセット内の競合の度合いを定量化するために、新しいメトリクスAlignment Dimension Conflictを導入する。我々は、textttHummerとその細粒度の変種である textttHummer-F を、コンフリクトアライメントの少ない革新的なペアワイズ選好データセットとして提示する。
参考スコア（独自算出の注目度）: 19.03597445162459
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
Abstract（参考訳）: 優先データセットは、人間の好みを事前訓練された言語モデルに組み込むのに不可欠であり、ヒューマンフィードバックからの強化学習の成功に重要な役割を果たす。しかし、これらのデータセットは矛盾するアライメントの目的を示すことが多く、ジェイルブレイク攻撃に対する脆弱性の増加や、下流のタスクを適用して特定のアライメントの目的を、他人に悪影響を及ぼすことなく優先順位付けする際の課題に繋がる。本研究では,選好データセット内の競合の度合いを定量化するために,新しい統計量であるアライメント・ディメンション・コンフリクトを導入する。次に,その微粒な変種である \texttt{Hummer-F} を,縮小コンフリクトなアライメント目的を持つイノベーティブなペアワイズ選好データセットとして提示する。 texttt{Hummer}はUltraFeedbackに基づいて構築されており、GPT-4からのAIフィードバックによって強化されている。さらに,HummerRMとHummerRM-Fという,多様なアライメント目的を効果的にバランスさせるハイブリッドサンプリング手法を開発した。このサンプリング方法は、HummerRMをドメイン固有のさらなる微調整と攻撃に対する脆弱性の低減のための理想的なモデルとして位置づける。

関連論文リスト

MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [22.154640547329738]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文参考訳（メタデータ） (2025-05-30T17:44:28Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Communication-Efficient and Personalized Federated Foundation Model Fine-Tuning via Tri-Matrix Adaptation [47.82423317739088]
本稿では, パーソナライズされたモデルパラメータアグリゲーションを用いた三要素化低ランク適応手法である通信効率のフェデレーションLoRA適応(CE-LoRA)を提案する。各種LLMおよびVLM微調整タスクの実験により、CE-LoRAは通信オーバーヘッドを著しく低減するだけでなく、独立で同一の分散データ条件下での性能も向上することが示された。
論文参考訳（メタデータ） (2025-03-31T09:18:42Z)
FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文参考訳（メタデータ） (2025-03-20T04:49:40Z)
Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文参考訳（メタデータ） (2024-12-13T19:47:38Z)
Federated LLMs Fine-tuned with Adaptive Importance-Aware LoRA [24.871424801066006]
LLM(Large Language Models)のフェデレートされた微調整は、データプライバシを保持しながら、さまざまなデータセットにまたがるタスク固有の適応を可能にする。ヘテロジニアス適応型低ランク適応(LoRA)ファインチューニングLDMフレームワーク(HAFL)を提案する。提案手法は,低通信サイズで迅速に収束し,クライアントへのモデル配信時の性能劣化を回避する。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
SeRA: Self-Reviewing and Alignment of Large Language Models using Implicit Reward Margins [30.767203592231496]
SeRA(Self-Reviewing and Alignment)は、既存のDAAと簡単に組み合わせられる費用効率が高く効果的な手法である。 SeRAは,(1)暗黙の報酬マージンを用いたサンプル選択,(2)暗黙の報酬を用いた選好ブートストラッピング,の2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-10-12T04:17:28Z)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T04:41:08Z)
SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文参考訳（メタデータ） (2024-08-16T18:48:30Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文参考訳（メタデータ） (2023-02-09T12:06:08Z)
Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing [8.959228247984337]
本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
論文参考訳（メタデータ） (2022-09-13T22:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。