論文の概要: Safeguarding the safeguards: How best to promote AI alignment in the
public interest
- arxiv url: http://arxiv.org/abs/2312.08039v1
- Date: Wed, 13 Dec 2023 10:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 15:46:01.785245
- Title: Safeguarding the safeguards: How best to promote AI alignment in the
public interest
- Title(参考訳): 安全を守る: 公益におけるAIの整合性をいかに促進するか
- Authors: Oliver Guest, Michael Aird, Se\'an \'O h\'Eigeartaigh
- Abstract要約: 我々は、AIアライメントの取り組みを支援する俳優が、これらの取り組みをできるだけ効果的にすることを支援することを目指している。
我々は、アライメントの取り組みが非生産的になり、大規模なAIリスクが増大する可能性のある4つの問題を述べる。
我々は、公共の利益で行動しようとする機関は、アライメントの取り組みを効果的にする方法を体系的に考えるべきだというより広範な勧告を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI alignment work is important from both a commercial and a safety lens. With
this paper, we aim to help actors who support alignment efforts to make these
efforts as effective as possible, and to avoid potential adverse effects. We
begin by suggesting that institutions that are trying to act in the public
interest (such as governments) should aim to support specifically alignment
work that reduces accident or misuse risks. We then describe four problems
which might cause alignment efforts to be counterproductive, increasing
large-scale AI risks. We suggest mitigations for each problem. Finally, we make
a broader recommendation that institutions trying to act in the public interest
should think systematically about how to make their alignment efforts as
effective, and as likely to be beneficial, as possible.
- Abstract(参考訳): AIアライメント作業は、商用レンズと安全レンズの両方から重要である。
本稿では,これらの取り組みを可能な限り効果的にするためのアライメント活動を支援する俳優の支援と,潜在的な悪影響を避けることを目的とする。
まず、公共の利益のために活動しようとする機関(政府など)は、事故や誤用リスクを低減させる具体的な調整作業を支援するべきであると提案する。
次に、アライメントの取り組みが非生産的になり、大規模なAIリスクが増大する可能性のある4つの問題を述べる。
各問題に対する緩和策を提案する。
最後に、公共の利益のために行動しようとする機関は、自分たちの協調努力を可能な限り効果的かつ有益にする方法を体系的に考えるべきだという幅広い勧告を行ないます。
関連論文リスト
- A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Both eyes open: Vigilant Incentives help Regulatory Markets improve AI
Safety [69.59465535312815]
Regulatory Markets for AIは、適応性を考慮して設計された提案である。
政府はAI企業が達成すべき結果に基づく目標を設定する必要がある。
我々は、規制市場がこの目標を達成するのを阻止するインセンティブについて、非常に簡単に対応できることを警告する。
論文 参考訳(メタデータ) (2023-03-06T14:42:05Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Five Ps: Leverage Zones Towards Responsible AI [0.0]
我々は介入が効果的であると理解される範囲を改善する機会があると主張している。
システム思考」の文献から適応したレバレッジゾーンの概念を用いて,介入の有効性を評価する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-20T04:20:14Z) - The Concept of Criticality in AI Safety [8.442084903594528]
AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。
バリューアライメント問題を解決する方法の1つは、エージェントのすべてのアクションを監視する人間のオペレータを含めることである。
我々は、オペレータが監視タスクを無視することなく、他のアクティビティに関わることができる、より効率的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-01-12T17:44:22Z) - Voluntary safety commitments provide an escape from over-regulation in
AI development [8.131948859165432]
この研究は、ピアまたは機関による制裁による自発的なコミットメントが、社会的に有益な結果をもたらすことを初めて明らかにしている。
結果は、倫理的で責任あるAI技術開発プロセスを保証することを目的としたガバナンスと規制ポリシーの設計に直接関係しています。
論文 参考訳(メタデータ) (2021-04-08T12:54:56Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z) - The Tragedy of the AI Commons [0.0]
我々は進化ゲーム力学を用いて、人工知能の倫理的発展の文脈における社会的ジレンマをモデル化する。
このようなシナリオでは,効果によって協調が実現可能であることを示す。
彼らは、協力のコストが低く、失敗のリスクが高い小さなグループで共通の利益の調整を試みるべきであることを示唆している。
論文 参考訳(メタデータ) (2020-06-09T12:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。