Fugu-MT 論文翻訳(概要): Scheming AIs: Will AIs fake alignment during training in order to get power?

論文の概要: Scheming AIs: Will AIs fake alignment during training in order to get power?

arxiv url: http://arxiv.org/abs/2311.08379v2
Date: Wed, 15 Nov 2023 18:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 12:39:59.326477
Title: Scheming AIs: Will AIs fake alignment during training in order to get power?
Title（参考訳）: Scheming AIs: AIは、パワーを得るためにトレーニング中に偽のアライメントを行うか?
Authors: Joe Carlsmith
Abstract要約: 報告書は、訓練でうまく機能する高度なAIが、後に力を得るためにそれを行うかどうかを調査している。スキームは、ベースラインの機械学習手法を使って、スキームに十分な高度な目標指向AIを訓練する、という、非常にありがたい結果だ。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report examines whether advanced AIs that perform well in training will be doing so in order to gain power later -- a behavior I call "scheming" (also sometimes called "deceptive alignment"). I conclude that scheming is a disturbingly plausible outcome of using baseline machine learning methods to train goal-directed AIs sophisticated enough to scheme (my subjective probability on such an outcome, given these conditions, is roughly 25%). In particular: if performing well in training is a good strategy for gaining power (as I think it might well be), then a very wide variety of goals would motivate scheming -- and hence, good training performance. This makes it plausible that training might either land on such a goal naturally and then reinforce it, or actively push a model's motivations towards such a goal as an easy way of improving performance. What's more, because schemers pretend to be aligned on tests designed to reveal their motivations, it may be quite difficult to tell whether this has occurred. However, I also think there are reasons for comfort. In particular: scheming may not actually be such a good strategy for gaining power; various selection pressures in training might work against schemer-like goals (for example, relative to non-schemers, schemers need to engage in extra instrumental reasoning, which might harm their training performance); and we may be able to increase such pressures intentionally. The report discusses these and a wide variety of other considerations in detail, and it suggests an array of empirical research directions for probing the topic further.
Abstract（参考訳）: このレポートは、トレーニングでうまく機能する先進的なAIが、後にパワーを得るためにそうするかどうかを調査する。スケジューリングは、ベースライン機械学習手法を使用して、計画に十分洗練された目標指向のAIを訓練する、という、厄介なほど確実な結果である、と私は結論付けます(これらの条件からすると、私の主観的な確率は約25%)。特に、トレーニングでうまくパフォーマンスを発揮すれば、(おそらくはそうであると思いますが)力を得るための優れた戦略であるならば、非常に幅広い目標が計画の動機となり、それゆえ、優れたトレーニングパフォーマンスが得られます。これにより、トレーニングが自然にそのような目標に当てはまり、それを補強するか、あるいはパフォーマンスを改善するための簡単な方法として、モデルのモチベーションを積極的に目標に向けて押し上げることができる。さらに、計画者はモチベーションを明らかにするために設計されたテストに一致しているふりをしているので、これが起こっているかどうかを判断するのは非常に難しいかもしれません。しかし、快適な理由もあると思います。トレーニングにおける様々な選択プレッシャーは、スキーマーのような目標(例えば、非スキーマーに対して、スキーマーは余分な道具的推論を行う必要があり、トレーニングパフォーマンスに悪影響を与える可能性がある)に対して作用しうるし、故意にそのようなプレッシャーを増大させることができる。本報告では,これらと,他の様々な考察を詳細に論じ,さらに議論を進めるための実証研究の方向性を提示する。

関連論文リスト

Towards Execution-Grounded Automated AI Research [106.90422658528819]
実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
論文参考訳（メタデータ） (2026-01-20T22:35:44Z)
RLP: Reinforcement as a Pretraining Objective [103.45068938532923]
我々は,情報駆動型強化事前訓練の目的として,強化学習のコアスピリットである探索を,事前訓練の最終段階に導くことを提案する。このトレーニングの目的は、モデルが次に何が起こるかを予測する前に、自分自身で考えることを奨励し、事前学習の早い段階で独立した思考行動を教えることである。特に、RLPは、通常のテキストにおける事前学習対象としての推論のための強化学習を再構築し、次のトーケン予測と有用な連鎖推論の出現の間のギャップを埋める。
論文参考訳（メタデータ） (2025-09-26T17:53:54Z)
Prompting Science Report 3: I'll pay you or I'll kill you -- but will you care? [0.0]
これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのを助けるための一連の短いレポートの第3弾である。
論文参考訳（メタデータ） (2025-08-01T13:23:21Z)
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。 TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文参考訳（メタデータ） (2025-05-22T16:13:29Z)
Infinite Ends from Finite Samples: Open-Ended Goal Inference as Top-Down Bayesian Filtering of Bottom-Up Proposals [48.437581268398866]
オープンエンドゴール推論のシーケンシャルなモンテカルロモデルを導入する。我々はこのモデルをブロックワードと呼ばれるゴール推論タスクで検証する。実験では,人間理論の速度,精度,一般性を説明する上で,トップダウンモデルとボトムアップモデルを組み合わせることの重要性を強調した。
論文参考訳（メタデータ） (2024-07-23T18:04:40Z)
Adversaries With Incentives: A Strategic Alternative to Adversarial Robustness [11.722685584919757]
敵の訓練は、あらゆる意味で予測性能を損なうことが唯一の目的である敵に対して防御することを目的としている。対戦相手を,分類者に対して直接取り組むのではなく,単に自身の目標を追求するものとしてモデル化することを提案する。我々は、相手のインセンティブに関する穏やかな知識がいかに有用であるかを示す一連の実験を行う。
論文参考訳（メタデータ） (2024-06-17T12:20:59Z)
Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文参考訳（メタデータ） (2023-04-13T13:29:01Z)
Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文参考訳（メタデータ） (2021-04-13T14:28:48Z)
Adversarial Training as Stackelberg Game: An Unrolled Optimization Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。 Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文参考訳（メタデータ） (2021-04-11T00:44:57Z)
Leaving Goals on the Pitch: Evaluating Decision Making in Soccer [21.85419069962932]
機械学習と人工知能(AI)の技術を組み合わせてサッカーにおける意思決定を推論する汎用フレームワークを提案する。私たちの重要な結論は、チームが少数のチーム固有の場所でペナルティボックスの外からより頻繁にショットした場合、より多くの目標を達成できるということです。
論文参考訳（メタデータ） (2021-04-07T16:56:31Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Bag of Tricks for Adversarial Training [50.53525358778331]
アドリアリトレーニングは、モデルの堅牢性を促進するための最も効果的な戦略の1つである。最近のベンチマークでは、提案されたATの改良のほとんどは、単にトレーニング手順を早期に停止するよりも効果が低いことが示されている。
論文参考訳（メタデータ） (2020-10-01T15:03:51Z)
Expected Utilitarianism [0.0]
私たちは、人工知能(AI)が役に立つことを望んでいる。これは、AI研究に対するほとんどの態度の根拠となる仮定である。 AIは人間を邪魔するのではなく、助けてもらいたい。しかし、この理論と実際が本当に関係しているものは、すぐには明らかではない。このことから生じる結論が2つある。まず第一に、有益なAIが倫理的なAIであると信じているなら、"相応しい"と仮定するフレームワークは、最も多くの人にとって最も良いものへのタンタマウントである、というものである。第2に、AIがRLに依存している場合、それ自身、環境、および他のエージェントの理由となる方法です。
論文参考訳（メタデータ） (2020-07-19T15:44:04Z)
Towards Understanding Fast Adversarial Training [91.8060431517248]
高速対人訓練の振る舞いを理解するために実験を行う。その成功の鍵は、過度な適合から弱い攻撃への回復能力である。
論文参考訳（メタデータ） (2020-06-04T18:19:43Z)
Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文参考訳（メタデータ） (2020-02-12T19:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。