論文の概要: Scheming AIs: Will AIs fake alignment during training in order to get
power?
- arxiv url: http://arxiv.org/abs/2311.08379v2
- Date: Wed, 15 Nov 2023 18:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 12:39:59.326477
- Title: Scheming AIs: Will AIs fake alignment during training in order to get
power?
- Title(参考訳): Scheming AIs: AIは、パワーを得るためにトレーニング中に偽のアライメントを行うか?
- Authors: Joe Carlsmith
- Abstract要約: 報告書は、訓練でうまく機能する高度なAIが、後に力を得るためにそれを行うかどうかを調査している。
スキームは、ベースラインの機械学習手法を使って、スキームに十分な高度な目標指向AIを訓練する、という、非常にありがたい結果だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report examines whether advanced AIs that perform well in training will
be doing so in order to gain power later -- a behavior I call "scheming" (also
sometimes called "deceptive alignment"). I conclude that scheming is a
disturbingly plausible outcome of using baseline machine learning methods to
train goal-directed AIs sophisticated enough to scheme (my subjective
probability on such an outcome, given these conditions, is roughly 25%). In
particular: if performing well in training is a good strategy for gaining power
(as I think it might well be), then a very wide variety of goals would motivate
scheming -- and hence, good training performance. This makes it plausible that
training might either land on such a goal naturally and then reinforce it, or
actively push a model's motivations towards such a goal as an easy way of
improving performance. What's more, because schemers pretend to be aligned on
tests designed to reveal their motivations, it may be quite difficult to tell
whether this has occurred. However, I also think there are reasons for comfort.
In particular: scheming may not actually be such a good strategy for gaining
power; various selection pressures in training might work against schemer-like
goals (for example, relative to non-schemers, schemers need to engage in extra
instrumental reasoning, which might harm their training performance); and we
may be able to increase such pressures intentionally. The report discusses
these and a wide variety of other considerations in detail, and it suggests an
array of empirical research directions for probing the topic further.
- Abstract(参考訳): このレポートは、トレーニングでうまく機能する先進的なAIが、後にパワーを得るためにそうするかどうかを調査する。
スケジューリングは、ベースライン機械学習手法を使用して、計画に十分洗練された目標指向のAIを訓練する、という、厄介なほど確実な結果である、と私は結論付けます(これらの条件からすると、私の主観的な確率は約25%)。
特に、トレーニングでうまくパフォーマンスを発揮すれば、(おそらくはそうであると思いますが)力を得るための優れた戦略であるならば、非常に幅広い目標が計画の動機となり、それゆえ、優れたトレーニングパフォーマンスが得られます。
これにより、トレーニングが自然にそのような目標に当てはまり、それを補強するか、あるいはパフォーマンスを改善するための簡単な方法として、モデルのモチベーションを積極的に目標に向けて押し上げることができる。
さらに、計画者はモチベーションを明らかにするために設計されたテストに一致しているふりをしているので、これが起こっているかどうかを判断するのは非常に難しいかもしれません。
しかし、快適な理由もあると思います。
トレーニングにおける様々な選択プレッシャーは、スキーマーのような目標(例えば、非スキーマーに対して、スキーマーは余分な道具的推論を行う必要があり、トレーニングパフォーマンスに悪影響を与える可能性がある)に対して作用しうるし、故意にそのようなプレッシャーを増大させることができる。
本報告では,これらと,他の様々な考察を詳細に論じ,さらに議論を進めるための実証研究の方向性を提示する。
関連論文リスト
- Infinite Ends from Finite Samples: Open-Ended Goal Inference as Top-Down Bayesian Filtering of Bottom-Up Proposals [48.437581268398866]
オープンエンドゴール推論のシーケンシャルなモンテカルロモデルを導入する。
我々はこのモデルをブロックワードと呼ばれるゴール推論タスクで検証する。
実験では,人間理論の速度,精度,一般性を説明する上で,トップダウンモデルとボトムアップモデルを組み合わせることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-23T18:04:40Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Leaving Goals on the Pitch: Evaluating Decision Making in Soccer [21.85419069962932]
機械学習と人工知能(AI)の技術を組み合わせてサッカーにおける意思決定を推論する汎用フレームワークを提案する。
私たちの重要な結論は、チームが少数のチーム固有の場所でペナルティボックスの外からより頻繁にショットした場合、より多くの目標を達成できるということです。
論文 参考訳(メタデータ) (2021-04-07T16:56:31Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Bag of Tricks for Adversarial Training [50.53525358778331]
アドリアリトレーニングは、モデルの堅牢性を促進するための最も効果的な戦略の1つである。
最近のベンチマークでは、提案されたATの改良のほとんどは、単にトレーニング手順を早期に停止するよりも効果が低いことが示されている。
論文 参考訳(メタデータ) (2020-10-01T15:03:51Z) - Expected Utilitarianism [0.0]
私たちは、人工知能(AI)が役に立つことを望んでいる。これは、AI研究に対するほとんどの態度の根拠となる仮定である。
AIは人間を邪魔するのではなく、助けてもらいたい。しかし、この理論と実際が本当に関係しているものは、すぐには明らかではない。
このことから生じる結論が2つある。まず第一に、有益なAIが倫理的なAIであると信じているなら、"相応しい"と仮定するフレームワークは、最も多くの人にとって最も良いものへのタンタマウントである、というものである。
第2に、AIがRLに依存している場合、それ自身、環境、および他のエージェントの理由となる方法です。
論文 参考訳(メタデータ) (2020-07-19T15:44:04Z) - Towards Understanding Fast Adversarial Training [91.8060431517248]
高速対人訓練の振る舞いを理解するために実験を行う。
その成功の鍵は、過度な適合から弱い攻撃への回復能力である。
論文 参考訳(メタデータ) (2020-06-04T18:19:43Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。