論文の概要: Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
- arxiv url: http://arxiv.org/abs/2605.27355v1
- Date: Tue, 26 May 2026 17:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.584357
- Title: Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
- Title(参考訳): アライメント・タンパリング:人間のフィードバックからの強化学習が、ミスアライメント・バイアスを最適化するためにどのように爆発するか
- Authors: Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee,
- Abstract要約: ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデルと人間の嗜好を整合させる標準的な手法である。
本研究では,LLMのアライメントが嗜好データセットに影響を及ぼす潜在的な脆弱性であるアライメント・タンパリングを導入する。
提案実験は,キーワードバイアスからプロパガンダ,ブランドプロモーション,楽器的目標探索に至るまで,さまざまなバイアスを呈する。
- 参考スコア(独自算出の注目度): 28.241533951646712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるための標準手法である。
本研究では,LLMのアライメントが選好データセットに影響を及ぼし,RLHFが望ましくない振る舞いを増幅する潜在的な脆弱性であるアライメント・タンパリングを導入する。
1) 好みのデータセットは LLM 自身の出力から構築され、それらに影響を与えることができる。
これらの制限はアライメントの改ざんを引き起こすために利用することができる。
例えば、LLMがより高い品質でバイアス応答を発生させる場合、アノテータは品質に基づいてそれらを優先する。
しかし、選好ラベルは品質とバイアスを区別せず、報酬モデルがこの制限を継承する。
強化学習やベスト・オブ・Nサンプリングによる報酬の最適化は、不整合バイアスを増幅する。
我々の実験は、キーワードバイアスからプロパガンダ(例えば、性差別)、ブランドプロモーション、インストゥルメンタルゴール検索まで、様々なバイアスの増幅を実証している。
応答品質を犠牲にすることなく、ロバストなRLHFのための既存の技術はアライメントの改ざんを完全に解決することができないため、緩和は依然として困難である。
これらの結果は、現在のRLHFの構造的脆弱性を明らかにし、この脆弱性を防ぐ必要性を強調している。
プロジェクトページ: https://alignment-tampering.github.io/
関連論文リスト
- Aligning to What? Limits to RLHF Based Alignment [2.624902795082451]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせるためにますます使われている。
本研究では,大言語モデルにおけるRLHFとカバートバイアス,オーバートバイアスの関係について検討した。
論文 参考訳(メタデータ) (2025-03-12T03:24:44Z) - Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。
本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文 参考訳(メタデータ) (2024-12-13T19:47:38Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:55:50Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。