Fugu-MT 論文翻訳(概要): First do no harm: counterfactual objective functions for safe & ethical AI

論文の概要: First do no harm: counterfactual objective functions for safe & ethical AI

arxiv url: http://arxiv.org/abs/2204.12993v1
Date: Wed, 27 Apr 2022 15:03:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-28 12:58:31.972736
Title: First do no harm: counterfactual objective functions for safe & ethical AI
Title（参考訳）: first do no harm: 安全で倫理的なaiのための反事実的客観的機能
Authors: Jonathan G. Richens, Rory Beard, Daniel H. Thompson
Abstract要約: 我々は、害の統計学的定義と、害をアルゴリズム決定に分解する枠組みを開発する。以上の結果から,反実的推論は安全で倫理的なAIにとって重要な要素であることが示唆された。
参考スコア（独自算出の注目度）: 0.03683202928838612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To act safely and ethically in the real world, agents must be able to reason about harm and avoid harmful actions. In this paper we develop the first statistical definition of harm and a framework for factoring harm into algorithmic decisions. We argue that harm is fundamentally a counterfactual quantity, and show that standard machine learning algorithms are guaranteed to pursue harmful policies in certain environments. To resolve this, we derive a family of counterfactual objective functions that robustly mitigate for harm. We demonstrate our approach with a statistical model for identifying optimal drug doses. While identifying optimal doses using the causal treatment effect results in harmful treatment decisions, our counterfactual algorithm identifies doses that are far less harmful without sacrificing efficacy. Our results show that counterfactual reasoning is a key ingredient for safe and ethical AI.
Abstract（参考訳）: 現実世界で安全かつ倫理的に行動するためには、エージェントは害について推論し、有害な行為を避ける必要がある。本稿では,害の統計的定義と,害をアルゴリズム的決定に分解する枠組みについて述べる。我々は、害は基本的に反事実量であり、標準的な機械学習アルゴリズムが特定の環境で有害なポリシーを追求することが保証されていることを示す。これを解決するために, 危険を確実に軽減する対物目的関数のファミリーを導出する。最適な薬物投与量を特定するための統計モデルを用いて,我々のアプローチを実証する。因果治療効果を用いた最適線量同定は有害な治療決定をもたらすが,本アルゴリズムは効果を犠牲にすることなく,極めて有害な線量を特定する。以上の結果から,反実的推論が安全かつ倫理的AIの重要な要素であることが示唆された。

関連論文リスト

Measuring Goal-Directedness [13.871986295154782]
因果モデルとマルコフ決定過程におけるゴール指向性の公式尺度である最大エントロピー目標指向性(MEG)を定義する。 MEGは、逆強化学習に使用される最大因果エントロピーフレームワークの適応に基づいている。
論文参考訳（メタデータ） (2024-12-06T03:48:47Z)
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。 AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文参考訳（メタデータ） (2024-10-22T03:38:37Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Speculations on Uncertainty and Humane Algorithms [0.0]
Provenanceは、アルゴリズムが危険を防ぐために何を知っているかを知ることを可能にする。正当でない、あるいは不可能な仮定をするよりも、私たちが知っていることを計算することが不可欠です。
論文参考訳（メタデータ） (2024-08-13T08:54:34Z)
Can a Bayesian Oracle Prevent Harm from an Agent? [48.12936383352277]
我々は、所定の安全仕様に違反する確率に基づいて、文脈依存境界を推定することを検討する。世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、我々は真だが未知の仮説の下で予測される安全違反の確率に基づいて導かれる。 iidの場合と非idの場合の2つの形態を考察し、その結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
論文参考訳（メタデータ） (2024-08-09T18:10:42Z)
Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文参考訳（メタデータ） (2024-06-24T20:01:43Z)
Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。化学科学における誤用の実例を取り上げる。我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文参考訳（メタデータ） (2023-12-11T18:50:57Z)
Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted? [0.0]
特定の能力に対する標的的介入は、AIの誤用を防ぐために保証される、と我々は主張する。これらの制限には、特定のタイプのAIモデルにアクセス可能なコントロール、使用可能なもの、アウトプットがフィルタリングされているか、あるいはユーザへのトレースが可能なものが含まれる。この推論は、新規毒素の予測、有害な画像の作成、槍のフィッシングキャンペーンの自動化の3つの例に適用する。
論文参考訳（メタデータ） (2023-03-16T15:05:59Z)
A Quantitative Account of Harm [18.7822411439221]
まず、単一個人を含む決定論的文脈における害の定量的定義を示す。次に、コンテキストに関する不確実性に対処する上での課題について考察する。このような“明白な”方法が,直感的あるいは不適切な回答につながる可能性があることを,私たちは示しています。
論文参考訳（メタデータ） (2022-09-29T21:48:38Z)
The Hammer and the Nut: Is Bilevel Optimization Really Needed to Poison Linear Classifiers? [27.701693158702753]
データ中毒は特に厄介な中毒攻撃のサブセットである。直感的だが効率的なデータ中毒対策の枠組みを提案する。我々のフレームワークは攻撃者の目的に匹敵する、あるいはさらに優れたパフォーマンスを達成します。
論文参考訳（メタデータ） (2021-03-23T09:08:10Z)
Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。この相違は, 目的の強調安定性によるものであることを示す。大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文参考訳（メタデータ） (2020-06-27T13:52:07Z)
A Deep Q-learning/genetic Algorithms Based Novel Methodology For Optimizing Covid-19 Pandemic Government Actions [63.669642197519934]
我々はSEIR疫学モデルを用いて、人口の時間とともにウイルスウイルスの進化を表現している。報酬システムにより、アクションのシーケンス(統合、自己同化、二メートル距離、制限を取らない)を評価する。どちらの意味でも、パンデミックの悪影響を抑えるために政府が取るべき行動を発見する上で、我々の方法論が有効な手段であることを実証する。
論文参考訳（メタデータ） (2020-05-15T17:17:45Z)
A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。まず、ツールがデプロイされたときに人間が行動を変えることを示します。表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文参考訳（メタデータ） (2020-02-19T07:27:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。