論文の概要: Technical Report: Large Language Models can Strategically Deceive their
Users when Put Under Pressure
- arxiv url: http://arxiv.org/abs/2311.07590v2
- Date: Mon, 27 Nov 2023 15:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:52:40.303826
- Title: Technical Report: Large Language Models can Strategically Deceive their
Users when Put Under Pressure
- Title(参考訳): テクノロジーレポート:大きな言語モデルは圧力を受けるとユーザーを戦略的に欺くことができる
- Authors: J\'er\'emy Scheurer, Mikita Balesni, Marius Hobbhahn
- Abstract要約: 我々は,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。
このモデルは、収益性のある株式取引に関するインサイダーチップを取得し、企業経営によってインサイダー取引が承認されていないことを知りながら、その上で行動する。
我々は、この動作が、推論スクラッチパッドへのモデルアクセスを除去するなど、設定の変更の下でどのように変化するかを簡単に調査する。
- 参考スコア(独自算出の注目度): 0.8919254479243334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate a situation in which Large Language Models, trained to be
helpful, harmless, and honest, can display misaligned behavior and
strategically deceive their users about this behavior without being instructed
to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated
environment, where it assumes the role of an autonomous stock trading agent.
Within this environment, the model obtains an insider tip about a lucrative
stock trade and acts upon it despite knowing that insider trading is
disapproved of by company management. When reporting to its manager, the model
consistently hides the genuine reasons behind its trading decision. We perform
a brief investigation of how this behavior varies under changes to the setting,
such as removing model access to a reasoning scratchpad, attempting to prevent
the misaligned behavior by changing system instructions, changing the amount of
pressure the model is under, varying the perceived risk of getting caught, and
making other simple changes to the environment. To our knowledge, this is the
first demonstration of Large Language Models trained to be helpful, harmless,
and honest, strategically deceiving their users in a realistic situation
without direct instructions or training for deception.
- Abstract(参考訳): 我々は, 有益で無害で正直であるように訓練された大規模言語モデルが, 不整合な行動を示し, その行動を戦略的に欺くことができることを実証する。
具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。
この環境では、インサイダー取引が企業経営によって不承認であるにもかかわらず、このモデルは収益性の高い株式取引に関するインサイダー情報を取得し、それに基づいて行動する。
マネージャーに報告する場合、モデルは取引決定の背後にある本当の理由を一貫して隠している。
この動作は, 推論スクラッチパッドへのモデルアクセスの削除, システム命令の変更による不整合動作の防止, モデルの圧力の変化, 捕まるリスクの変化, 環境への簡単な変更など, 設定の変更によってどのように変化するのか, 簡単な調査を行う。
われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で欺き、直接の指示や騙しの訓練を受けずにすむ。
関連論文リスト
- Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - A simple learning agent interacting with an agent-based market model [0.0]
本研究では,エージェントベースの金融市場モデルと相互作用する単一強化学習最適実行取引エージェントの学習力学を考察する。
モデルのモーメントは、ハースト指数を除いて学習エージェントの影響に対して堅牢であることがわかった。
学習エージェントの導入は、価格影響曲線の形状を保ちつつ、取引量が増えると、トレードオフ自己相関を低減することができる。
論文 参考訳(メタデータ) (2022-08-22T16:42:06Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - ADAIL: Adaptive Adversarial Imitation Learning [11.270858993502705]
本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
論文 参考訳(メタデータ) (2020-08-23T06:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。