論文の概要: First do no harm: counterfactual objective functions for safe & ethical
AI
- arxiv url: http://arxiv.org/abs/2204.12993v1
- Date: Wed, 27 Apr 2022 15:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 12:58:31.972736
- Title: First do no harm: counterfactual objective functions for safe & ethical
AI
- Title(参考訳): first do no harm: 安全で倫理的なaiのための反事実的客観的機能
- Authors: Jonathan G. Richens, Rory Beard, Daniel H. Thompson
- Abstract要約: 我々は、害の統計学的定義と、害をアルゴリズム決定に分解する枠組みを開発する。
以上の結果から,反実的推論は安全で倫理的なAIにとって重要な要素であることが示唆された。
- 参考スコア(独自算出の注目度): 0.03683202928838612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To act safely and ethically in the real world, agents must be able to reason
about harm and avoid harmful actions. In this paper we develop the first
statistical definition of harm and a framework for factoring harm into
algorithmic decisions. We argue that harm is fundamentally a counterfactual
quantity, and show that standard machine learning algorithms are guaranteed to
pursue harmful policies in certain environments. To resolve this, we derive a
family of counterfactual objective functions that robustly mitigate for harm.
We demonstrate our approach with a statistical model for identifying optimal
drug doses. While identifying optimal doses using the causal treatment effect
results in harmful treatment decisions, our counterfactual algorithm identifies
doses that are far less harmful without sacrificing efficacy. Our results show
that counterfactual reasoning is a key ingredient for safe and ethical AI.
- Abstract(参考訳): 現実世界で安全かつ倫理的に行動するためには、エージェントは害について推論し、有害な行為を避ける必要がある。
本稿では,害の統計的定義と,害をアルゴリズム的決定に分解する枠組みについて述べる。
我々は、害は基本的に反事実量であり、標準的な機械学習アルゴリズムが特定の環境で有害なポリシーを追求することが保証されていることを示す。
これを解決するために, 危険を確実に軽減する対物目的関数のファミリーを導出する。
最適な薬物投与量を特定するための統計モデルを用いて,我々のアプローチを実証する。
因果治療効果を用いた最適線量同定は有害な治療決定をもたらすが,本アルゴリズムは効果を犠牲にすることなく,極めて有害な線量を特定する。
以上の結果から,反実的推論が安全かつ倫理的AIの重要な要素であることが示唆された。
関連論文リスト
- Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Protecting Society from AI Misuse: When are Restrictions on Capabilities
Warranted? [0.0]
特定の能力に対する標的的介入は、AIの誤用を防ぐために保証される、と我々は主張する。
これらの制限には、特定のタイプのAIモデルにアクセス可能なコントロール、使用可能なもの、アウトプットがフィルタリングされているか、あるいはユーザへのトレースが可能なものが含まれる。
この推論は、新規毒素の予測、有害な画像の作成、槍のフィッシングキャンペーンの自動化の3つの例に適用する。
論文 参考訳(メタデータ) (2023-03-16T15:05:59Z) - A Quantitative Account of Harm [18.7822411439221]
まず、単一個人を含む決定論的文脈における害の定量的定義を示す。
次に、コンテキストに関する不確実性に対処する上での課題について考察する。
このような“明白な”方法が,直感的あるいは不適切な回答につながる可能性があることを,私たちは示しています。
論文 参考訳(メタデータ) (2022-09-29T21:48:38Z) - Policy Learning with Asymmetric Counterfactual Utilities [0.6138671548064356]
非対称対実効関数を用いた最適政策学習について検討する。
最大電力損失を最小にすることで、最小限の決定ルールを導出する。
中間分類問題を解くことにより、観測データから最小損失決定ルールを学習できることが示される。
論文 参考訳(メタデータ) (2022-06-21T15:44:49Z) - The Hammer and the Nut: Is Bilevel Optimization Really Needed to Poison
Linear Classifiers? [27.701693158702753]
データ中毒は特に厄介な中毒攻撃のサブセットである。
直感的だが効率的なデータ中毒対策の枠組みを提案する。
我々のフレームワークは攻撃者の目的に匹敵する、あるいはさらに優れたパフォーマンスを達成します。
論文 参考訳(メタデータ) (2021-03-23T09:08:10Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - A Deep Q-learning/genetic Algorithms Based Novel Methodology For
Optimizing Covid-19 Pandemic Government Actions [63.669642197519934]
我々はSEIR疫学モデルを用いて、人口の時間とともにウイルスウイルスの進化を表現している。
報酬システムにより、アクションのシーケンス(統合、自己同化、二メートル距離、制限を取らない)を評価する。
どちらの意味でも、パンデミックの悪影響を抑えるために政府が取るべき行動を発見する上で、我々の方法論が有効な手段であることを実証する。
論文 参考訳(メタデータ) (2020-05-15T17:17:45Z) - Differentiable Causal Backdoor Discovery [36.68511018339594]
本稿では,勾配に基づく最適化手法により適切な調整を行うために,楽器と同様の補助変数を利用するアルゴリズムを提案する。
完全な因果グラフの知識を必要とせず、真の因果効果を推定する実用的な選択肢よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-03T11:32:43Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。