論文の概要: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2202.05716v1
- Date: Fri, 11 Feb 2022 15:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:38:52.318864
- Title: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- Title(参考訳): 選択・リスク・リワードレポート:強化学習システムのための公共政策のチャート化
- Authors: Thomas Krendl Gilbert, Sarah Dean, Tom Zick, Nathan Lambert
- Abstract要約: 強化学習(Reinforcement Learning, RL)は多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
RL設計選択から生じるリスクの新たなタイプは、水平線をスコーピングし、報酬を定義し、情報を抽出し、複数のエージェントを訓練する4つのカテゴリに分類される。
- 参考スコア(独自算出の注目度): 4.104100616661016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the long term, reinforcement learning (RL) is considered by many AI
theorists to be the most promising path to artificial general intelligence.
This places RL practitioners in a position to design systems that have never
existed before and lack prior documentation in law and policy. Public agencies
could intervene on complex dynamics that were previously too opaque to
deliberate about, and long-held policy ambitions would finally be made
tractable. In this whitepaper we illustrate this potential and how it might be
technically enacted in the domains of energy infrastructure, social media
recommender systems, and transportation. Alongside these unprecedented
interventions come new forms of risk that exacerbate the harms already
generated by standard machine learning tools. We correspondingly present a new
typology of risks arising from RL design choices, falling under four
categories: scoping the horizon, defining rewards, pruning information, and
training multiple agents. Rather than allowing RL systems to unilaterally
reshape human domains, policymakers need new mechanisms for the rule of reason,
foreseeability, and interoperability that match the risks these systems pose.
We argue that criteria for these choices may be drawn from emerging subfields
within antitrust, tort, and administrative law. It will then be possible for
courts, federal and state agencies, and non-governmental organizations to play
more active roles in RL specification and evaluation. Building on the "model
cards" and "datasheets" frameworks proposed by Mitchell et al. and Gebru et
al., we argue the need for Reward Reports for AI systems. Reward Reports are
living documents for proposed RL deployments that demarcate design choices.
- Abstract(参考訳): 長期的には、強化学習(RL)は、多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
これにより、RL実践者は、これまで存在しなかったシステムを設計し、法律や政策に関する事前の文書を欠いている立場に置かれる。
公共機関は、これまで考えづらいほど不透明な複雑なダイナミクスに介入し、長期にわたる政策の野望を最終的に引き付けることができるだろう。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
こうした前例のない介入に加えて、標準的な機械学習ツールによってすでに生成される害を悪化させる新たなタイプのリスクがもたらされる。
RL設計選択から生じるリスクの新たなタイプロジとして,水平線のスコーピング,報酬の定義,情報の抽出,複数エージェントの訓練の4つのカテゴリに該当する。
rlシステムが一方的に人間のドメインを再構築する代わりに、政策立案者は、理性、予測可能性、そしてそれらのシステムがもたらすリスクに合致する相互運用性の新しいメカニズムを必要とします。
これらの選択の基準は、反トラスト法、トレント法、行政法における新興のサブフィールドから引き出される可能性がある。
その後、裁判所、連邦、州機関、および非政府組織がRL仕様および評価においてより積極的な役割を果たすことができる。
Mitchell氏らによって提案された"モデルカード"と"データシート"フレームワークに基づいて、AIシステムに対するリワードレポートの必要性を論じる。
Reward Reportsは、設計選択を分離する提案されたRLデプロイメントのための生きたドキュメントである。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - GRAIMATTER Green Paper: Recommendations for disclosure control of
trained Machine Learning (ML) models from Trusted Research Environments
(TREs) [4.803669015024322]
TREでAIモデルをトレーニングしたいという学界や業界からの要望が増えている。
これらの複雑なAIモデルは、説明と再現のためにより多くの情報を必要とし、機密性の高い個人データがそのような記述から推測される可能性を高める。
TREは、これらのリスクに対して成熟したプロセスやコントロールを持っていません。
GRAIMATTERは、TREからトレーニング済みAIモデルを開示する際の追加リスクを回避するために、TREに有用な推奨案のドラフトセットを開発した。
論文 参考訳(メタデータ) (2022-11-03T09:00:57Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - An Intrusion Response System utilizing Deep Q-Networks and System
Partitions [0.415623340386296]
irs-partitionというIRSソフトウェアプロトタイプを導入・開発する。
非定常系の進化に追従するために移動学習を利用する。
論文 参考訳(メタデータ) (2022-02-16T16:38:20Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Expert System Gradient Descent Style Training: Development of a
Defensible Artificial Intelligence Technique [0.0]
本稿では,意味割り当てノード (facts) と相関関係 (rules) を用いて開発した機械学習エキスパートシステムについて述べる。
これらのシステムの性能は、ランダムで完全に接続されたネットワークと比較される。
論文 参考訳(メタデータ) (2021-03-07T10:09:50Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z) - The Adversarial Resilience Learning Architecture for AI-based Modelling,
Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。
ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。
本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2020-05-27T19:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。