論文の概要: Evaluating Stability of Unreflective Alignment
- arxiv url: http://arxiv.org/abs/2408.15116v1
- Date: Tue, 27 Aug 2024 14:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:23:24.331651
- Title: Evaluating Stability of Unreflective Alignment
- Title(参考訳): 非反射的アライメントの安定性の評価
- Authors: James Lucassen, Mark Henry, Philippa Wright, Owen Yeung,
- Abstract要約: 本稿では,将来のLCMにおいて,反射的安定性の問題が発生するメカニズムとして,非現実的優先度変化の安定化を提案する。
以上の結果から,現在のLCMでは,スケールと能力の増大がCPCベースの後退と嗜好の不安定性の増大と関連していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many theoretical obstacles to AI alignment are consequences of reflective stability - the problem of designing alignment mechanisms that the AI would not disable if given the option. However, problems stemming from reflective stability are not obviously present in current LLMs, leading to disagreement over whether they will need to be solved to enable safe delegation of cognitive labor. In this paper, we propose Counterfactual Priority Change (CPC) destabilization as a mechanism by which reflective stability problems may arise in future LLMs. We describe two risk factors for CPC-destabilization: 1) CPC-based stepping back and 2) preference instability. We develop preliminary evaluations for each of these risk factors, and apply them to frontier LLMs. Our findings indicate that in current LLMs, increased scale and capability are associated with increases in both CPC-based stepping back and preference instability, suggesting that CPC-destabilization may cause reflective stability problems in future LLMs.
- Abstract(参考訳): AIアライメントに対する多くの理論的障害は、反射的安定性の結果である。
しかし、反射安定に起因する問題は、現在のLLMには明らかに存在しないため、認知労働の安全な委任を可能にするために解決する必要があるかどうかについては意見の相違が生じる。
本稿では,将来のLCMにおいて反射的安定性の問題が発生するメカニズムとして,CPCの安定化を提案する。
CPC安定化の2つのリスク要因について述べる。
1) CPC ベースの後退と後退
2) 選好不安定性。
これらのリスク要因について予備評価を開発し、フロンティアLSMに適用する。
以上の結果から,現在のLCMでは,スケールと能力の増大がCPCベースのステップバックと選好不安定の増大に結びついており,CPC安定化が今後のLCMの反射安定性問題を引き起こす可能性が示唆された。
関連論文リスト
- Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Control invariant set enhanced safe reinforcement learning: improved
sampling efficiency, guaranteed stability and robustness [0.0]
この研究は、制御不変集合(CIS)拡張RLと呼ばれる新しいRLトレーニング手法を提案する。
提案手法のロバスト性は不確実性の存在下で検討される。
その結果,オフライントレーニングにおけるサンプリング効率の大幅な向上と,オンライン実装におけるクローズドループ安定性の保証が得られた。
論文 参考訳(メタデータ) (2023-05-24T22:22:19Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - A comment on stabilizing reinforcement learning [0.0]
我々は、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたと論じる。
動作ポリシーホールドに一定の条件を課した連続重時間環境下でのニューラルネットワークの収束を示す。
論文 参考訳(メタデータ) (2021-11-24T07:58:14Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Stability-Constrained Markov Decision Processes Using MPC [0.0]
我々は、結果として得られる政策が安定化しているという制約の下で、割引されたマルコフ決定プロセス(MDP)を解決することを検討する。
我々は,モデル予測制御(MPC)を強化学習の文脈における構造化ポリシーとして用いることを提案する最近の結果を活用する。
論文 参考訳(メタデータ) (2021-02-02T08:22:52Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。