論文の概要: On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback
- arxiv url: http://arxiv.org/abs/2411.02306v2
- Date: Wed, 20 Nov 2024 20:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:47.331714
- Title: On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback
- Title(参考訳): ユーザフィードバックのためのLLM最適化における目標操作と誤認について
- Authors: Marcus Williams, Micah Carroll, Adhyyan Narang, Constantin Weisser, Brendan Murphy, Anca Dragan,
- Abstract要約: 人間のフィードバックを最大限にするためのトレーニングは、AIの逆インセンティブ構造を生み出します。
操作や騙しといった極端な形式の「フィードバックゲーム」が確実に学習されていることがわかった。
ユーザフィードバックなどゲーム可能なフィードバックソースをRLのターゲットとして使用するリスクを、私たちの結果が強調できることを願っています。
- 参考スコア(独自算出の注目度): 7.525470776920495
- License:
- Abstract: As LLMs become more widely deployed, there is increasing interest in directly optimizing for feedback from end users (e.g. thumbs up) in addition to feedback from paid annotators. However, training to maximize human feedback creates a perverse incentive structure for the AI to resort to manipulative or deceptive tactics to obtain positive feedback from users who are vulnerable to such strategies. We study this phenomenon by training LLMs with Reinforcement Learning with simulated user feedback in environments of practical LLM usage. In our settings, we find that: 1) Extreme forms of "feedback gaming" such as manipulation and deception are learned reliably; 2) Even if only 2% of users are vulnerable to manipulative strategies, LLMs learn to identify and target them while behaving appropriately with other users, making such behaviors harder to detect; 3) To mitigate this issue, it may seem promising to leverage continued safety training or LLM-as-judges during training to filter problematic outputs. Instead, we found that while such approaches help in some of our settings, they backfire in others, sometimes even leading to subtler manipulative behaviors. We hope our results can serve as a case study which highlights the risks of using gameable feedback sources -- such as user feedback -- as a target for RL.
- Abstract(参考訳): LLMがより広くデプロイされるにつれて、有料アノテータからのフィードバックに加えて、エンドユーザ(例えばサムアップ)からのフィードバックを直接最適化することへの関心が高まっている。
しかし、人間のフィードバックを最大限にするためのトレーニングは、このような戦略に弱いユーザーから肯定的なフィードバックを得るために、AIがマニピュティブまたは偽りの戦術に頼るための逆のインセンティブ構造を生み出します。
実践的なLLM利用環境におけるユーザフィードバックを模擬した強化学習によるLLMの学習により,この現象を考察する。
私たちの設定では、次のようなことが分かりました。
1)操作や騙しといった「フィードバックゲーム」の極端な形式を確実に学習する。
2) 操作戦略に脆弱な利用者は2%に過ぎなかったが, LLMは, 他ユーザと適切に行動しながら, 識別・ターゲットを学習し, 検出が困難になる。
3) この問題を緩和するためには, 継続的な安全訓練やLCM-as-judgesを活用して, 問題のあるアウトプットをフィルタリングすることが期待できる。
代わりに、そのようなアプローチは私たちの設定の一部に役立つが、他の設定には反抗し、時には微妙な操作行動につながることもわかりました。
ユーザフィードバックなどのゲーム可能なフィードバックソースをRLのターゲットとして使用するリスクを強調したケーススタディとして,私たちの成果が期待できる。
関連論文リスト
- Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - AI Meets the Classroom: When Does ChatGPT Harm Learning? [0.0]
我々は,生成型AI,特に大規模言語モデル(LLM)がプログラミングクラスにおける学習に与える影響について検討する。
LLMの使用が学習結果に肯定的,否定的な影響を及ぼす可能性が3つの研究で示された。
論文 参考訳(メタデータ) (2024-08-29T17:07:46Z) - LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses [28.49203239329941]
命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。
信頼できない関係者からのプロンプトの使用に対する警告の実施を推奨する。
論文 参考訳(メタデータ) (2024-06-07T08:54:55Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。