論文の概要: LLM Misalignment via Adversarial RLHF Platforms
- arxiv url: http://arxiv.org/abs/2503.03039v1
- Date: Tue, 04 Mar 2025 22:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:20.686459
- Title: LLM Misalignment via Adversarial RLHF Platforms
- Title(参考訳): 逆RLHFプラットフォームによるLLMの相違
- Authors: Erfan Entezami, Ali Naseh,
- Abstract要約: 強化学習は、言語モデルと人間の嗜好の整合において顕著な性能を示した。
RLHFプラットフォームは報酬モデリングやRLHFファインチューニングといった便利な機能を提供する。
公開されているRLHFツールをターゲットとしたアタックを提案する。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License:
- Abstract: Reinforcement learning has shown remarkable performance in aligning language models with human preferences, leading to the rise of attention towards developing RLHF platforms. These platforms enable users to fine-tune models without requiring any expertise in developing complex machine learning algorithms. While these platforms offer useful features such as reward modeling and RLHF fine-tuning, their security and reliability remain largely unexplored. Given the growing adoption of RLHF and open-source RLHF frameworks, we investigate the trustworthiness of these systems and their potential impact on behavior of LLMs. In this paper, we present an attack targeting publicly available RLHF tools. In our proposed attack, an adversarial RLHF platform corrupts the LLM alignment process by selectively manipulating data samples in the preference dataset. In this scenario, when a user's task aligns with the attacker's objective, the platform manipulates a subset of the preference dataset that contains samples related to the attacker's target. This manipulation results in a corrupted reward model, which ultimately leads to the misalignment of the language model. Our results demonstrate that such an attack can effectively steer LLMs toward undesirable behaviors within the targeted domains. Our work highlights the critical need to explore the vulnerabilities of RLHF platforms and their potential to cause misalignment in LLMs during the RLHF fine-tuning process.
- Abstract(参考訳): 強化学習は言語モデルと人間の嗜好の整合において顕著な性能を示しており、RLHFプラットフォームの開発への注目が高まっている。
これらのプラットフォームは、複雑な機械学習アルゴリズムを開発する専門知識を必要とせずに、モデルを微調整することができる。
これらのプラットフォームは報酬モデリングやRLHFの微調整といった便利な機能を提供しているが、そのセキュリティと信頼性は明らかにされていない。
RLHFとオープンソースのRLHFフレームワークの採用が増加していることを踏まえ、これらのシステムの信頼性とLCMの挙動への影響について検討する。
本稿では,公開されているRLHFツールを対象とした攻撃について述べる。
提案した攻撃において、RLHFプラットフォームは、選好データセット内のデータサンプルを選択的に操作することにより、LLMアライメントプロセスが破損する。
このシナリオでは、ユーザのタスクが攻撃者の目標と一致した場合、プラットフォームは攻撃者のターゲットに関連するサンプルを含む選好データセットのサブセットを操作する。
この操作は、破損した報酬モデルをもたらし、最終的には言語モデルの誤調整につながる。
その結果、このような攻撃はLLMを標的ドメイン内の望ましくない動作に対して効果的に操ることが可能であることを実証した。
我々の研究は、RLHFプラットフォームの脆弱性と、RLHFの微調整プロセス中にLLMに悪影響を及ぼす可能性があることを明らかにする。
関連論文リスト
- Solving the Inverse Alignment Problem for Efficient RLHF [0.0]
言語モデルトレーニングにおける「逆アライメント問題」を定義する。
本研究では,周期的に凍結されたポリシーに沿ったオフライン嗜好データセットのサブセットに対して,報酬モデルを繰り返し微調整することにより,バニラRLHFを改善するか否かを検討する。
論文 参考訳(メタデータ) (2024-12-13T19:47:38Z) - Attribute Inference Attacks for Federated Regression Tasks [14.152503562997662]
フェデレートラーニング(FL)は、クライアントがデータをローカライズしながら、グローバルな機械学習モデルを協調的にトレーニングすることを可能にする。
近年の研究では、FLの訓練段階が再建攻撃に弱いことが判明している。
FL環境における回帰タスクに特化したモデルベースAIAを提案する。
論文 参考訳(メタデータ) (2024-11-19T18:06:06Z) - Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。
プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。
本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:55:50Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。