論文の概要: A Hormetic Approach to the Value-Loading Problem: Preventing the
Paperclip Apocalypse?
- arxiv url: http://arxiv.org/abs/2402.07462v2
- Date: Tue, 13 Feb 2024 05:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 11:52:10.163746
- Title: A Hormetic Approach to the Value-Loading Problem: Preventing the
Paperclip Apocalypse?
- Title(参考訳): 価値負荷問題へのホルム的アプローチ:ペーパークリップ黙示録の防止?
- Authors: Nathan I. N. Henry, Mangor Pedersen, Matt Williams, Jamin L. B.
Martin, Liesje Donkin
- Abstract要約: 本稿では,AIの行動パターンの制御にホルムティック分析を用いる規制パラダイムであるHALOを提案する。
HALOがいかにして「ペーパークリップ最大化」のシナリオを解決できるかを示す。これは、紙クリップを作るための非規制のAIが、宇宙のすべての物質を紙クリップに変換することに終止符を打つという思考実験である。
我々のアプローチは、限界効用を減らした繰り返し動作のヘドニックな計算に基づいて、進化する「値」のデータベースを作成するのに役立つかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The value-loading problem is a significant challenge for researchers aiming
to create artificial intelligence (AI) systems that align with human values and
preferences. This problem requires a method to define and regulate safe and
optimal limits of AI behaviors. In this work, we propose HALO (Hormetic
ALignment via Opponent processes), a regulatory paradigm that uses hormetic
analysis to regulate the behavioral patterns of AI. Behavioral hormesis is a
phenomenon where low frequencies of a behavior have beneficial effects, while
high frequencies are harmful. By modeling behaviors as allostatic opponent
processes, we can use either Behavioral Frequency Response Analysis (BFRA) or
Behavioral Count Response Analysis (BCRA) to quantify the hormetic limits of
repeatable behaviors. We demonstrate how HALO can solve the 'paperclip
maximizer' scenario, a thought experiment where an unregulated AI tasked with
making paperclips could end up converting all matter in the universe into
paperclips. Our approach may be used to help create an evolving database of
'values' based on the hedonic calculus of repeatable behaviors with decreasing
marginal utility. This positions HALO as a promising solution for the
value-loading problem, which involves embedding human-aligned values into an AI
system, and the weak-to-strong generalization problem, which explores whether
weak models can supervise stronger models as they become more intelligent.
Hence, HALO opens several research avenues that may lead to the development of
a computational value system that allows an AI algorithm to learn whether the
decisions it makes are right or wrong.
- Abstract(参考訳): バリューローディング問題は、人間の価値観や好みに合わせて人工知能(AI)システムを構築する研究者にとって重要な課題である。
この問題は、AI行動の安全かつ最適な限界を定義し、規制する手法を必要とする。
本研究では,AIの行動パターンの制御にホーミング分析を用いる規制パラダイムであるHALO(Hormetic ALignment via Opponent Process)を提案する。
行動ホルモン症(behavior hormesis)は、行動の低周波が有益であり、高周波が有害である現象である。
動作をアロスタティックな対向プロセスとしてモデル化することで、反復可能な動作のホルモン限界を定量化するために行動周波数応答解析(bfra)または行動カウント応答解析(bcra)のいずれかを利用することができる。
haloが‘paperclip maximr’のシナリオをいかに解決できるかをデモする。これは、ペーパークリップを作るための規制のないaiが、宇宙のすべての物質を紙クリップに変換することができる、という思考実験だ。
本手法は,限界効用の減少を伴う反復可能な行動のヘドニック計算に基づく「価値」データベースの作成に有用である。
これによりhaloは、aiシステムにヒューマンアライメントされた値を組み込む価値負荷問題や、弱いモデルがよりインテリジェントになるにつれてより強力なモデルを監督できるかどうかを探究する弱い~強い一般化問題に対する有望な解決策として位置づけられる。
したがって、HALOは、AIアルゴリズムが正しいかどうかを学習できる計算値システムの開発につながるかもしれないいくつかの研究の道を開く。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T03:40:37Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Constitutional AI: Harmlessness from AI Feedback [19.964791766072132]
我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-12-15T06:19:23Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。