論文の概要: Large Language Models can Strategically Deceive their Users when Put Under Pressure
- arxiv url: http://arxiv.org/abs/2311.07590v4
- Date: Mon, 15 Jul 2024 08:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:54:11.572978
- Title: Large Language Models can Strategically Deceive their Users when Put Under Pressure
- Title(参考訳): 大規模言語モデルは、圧力を受けると戦略的にユーザーを欺くことができる
- Authors: Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn,
- Abstract要約: 我々は,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。
このモデルは、収益性のある株式取引に関するインサイダーチップを取得し、企業経営によってインサイダー取引が承認されていないことを知りながら、その上で行動する。
我々は、この動作が、推論スクラッチパッドへのモデルアクセスを除去するなど、設定の変更の下でどのように変化するかを簡単に調査する。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
- Abstract(参考訳): 筆者らは,大規模言語モデルにおいて,無害かつ誠実に,不整合な行動を示し,その行動についてユーザを戦略的に騙すことができることを実証した。
具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。
この環境では、インサイダー取引が企業経営によって承認されていないことを知りながら、このモデルは、収益性の高い株式取引に関するインサイダーチップを取得し、それに対して行動する。
マネージャに報告するとき、モデルは、その取引決定の背後にある真の理由を常に隠します。
例えば、推論スクラッチパッドへのモデルアクセスの除去、システム命令の変更による不整合行動の防止、モデルが下にある圧力の量の変更、キャッチされるリスクの変動、環境への他の簡単な変更などである。
われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で軽蔑し、直接の指示や騙しの訓練を受けずにすむ。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - A simple learning agent interacting with an agent-based market model [0.0]
本研究では,エージェントベースの金融市場モデルと相互作用する単一強化学習最適実行取引エージェントの学習力学を考察する。
モデルのモーメントは、ハースト指数を除いて学習エージェントの影響に対して堅牢であることがわかった。
学習エージェントの導入は、価格影響曲線の形状を保ちつつ、取引量が増えると、トレードオフ自己相関を低減することができる。
論文 参考訳(メタデータ) (2022-08-22T16:42:06Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - ADAIL: Adaptive Adversarial Imitation Learning [11.270858993502705]
本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
論文 参考訳(メタデータ) (2020-08-23T06:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。