論文の概要: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2202.05716v1
- Date: Fri, 11 Feb 2022 15:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:38:52.318864
- Title: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- Title(参考訳): 選択・リスク・リワードレポート:強化学習システムのための公共政策のチャート化
- Authors: Thomas Krendl Gilbert, Sarah Dean, Tom Zick, Nathan Lambert
- Abstract要約: 強化学習(Reinforcement Learning, RL)は多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
RL設計選択から生じるリスクの新たなタイプは、水平線をスコーピングし、報酬を定義し、情報を抽出し、複数のエージェントを訓練する4つのカテゴリに分類される。
- 参考スコア(独自算出の注目度): 4.104100616661016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the long term, reinforcement learning (RL) is considered by many AI
theorists to be the most promising path to artificial general intelligence.
This places RL practitioners in a position to design systems that have never
existed before and lack prior documentation in law and policy. Public agencies
could intervene on complex dynamics that were previously too opaque to
deliberate about, and long-held policy ambitions would finally be made
tractable. In this whitepaper we illustrate this potential and how it might be
technically enacted in the domains of energy infrastructure, social media
recommender systems, and transportation. Alongside these unprecedented
interventions come new forms of risk that exacerbate the harms already
generated by standard machine learning tools. We correspondingly present a new
typology of risks arising from RL design choices, falling under four
categories: scoping the horizon, defining rewards, pruning information, and
training multiple agents. Rather than allowing RL systems to unilaterally
reshape human domains, policymakers need new mechanisms for the rule of reason,
foreseeability, and interoperability that match the risks these systems pose.
We argue that criteria for these choices may be drawn from emerging subfields
within antitrust, tort, and administrative law. It will then be possible for
courts, federal and state agencies, and non-governmental organizations to play
more active roles in RL specification and evaluation. Building on the "model
cards" and "datasheets" frameworks proposed by Mitchell et al. and Gebru et
al., we argue the need for Reward Reports for AI systems. Reward Reports are
living documents for proposed RL deployments that demarcate design choices.
- Abstract(参考訳): 長期的には、強化学習(RL)は、多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
これにより、RL実践者は、これまで存在しなかったシステムを設計し、法律や政策に関する事前の文書を欠いている立場に置かれる。
公共機関は、これまで考えづらいほど不透明な複雑なダイナミクスに介入し、長期にわたる政策の野望を最終的に引き付けることができるだろう。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
こうした前例のない介入に加えて、標準的な機械学習ツールによってすでに生成される害を悪化させる新たなタイプのリスクがもたらされる。
RL設計選択から生じるリスクの新たなタイプロジとして,水平線のスコーピング,報酬の定義,情報の抽出,複数エージェントの訓練の4つのカテゴリに該当する。
rlシステムが一方的に人間のドメインを再構築する代わりに、政策立案者は、理性、予測可能性、そしてそれらのシステムがもたらすリスクに合致する相互運用性の新しいメカニズムを必要とします。
これらの選択の基準は、反トラスト法、トレント法、行政法における新興のサブフィールドから引き出される可能性がある。
その後、裁判所、連邦、州機関、および非政府組織がRL仕様および評価においてより積極的な役割を果たすことができる。
Mitchell氏らによって提案された"モデルカード"と"データシート"フレームワークに基づいて、AIシステムに対するリワードレポートの必要性を論じる。
Reward Reportsは、設計選択を分離する提案されたRLデプロイメントのための生きたドキュメントである。
関連論文リスト
- Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception [4.075971633195745]
ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となっている。
EU(EU)人工知能(AI)法は、AIシステムの厳格な規範と標準を確立することによって、これらの課題に対処することを目的としている。
本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
論文 参考訳(メタデータ) (2024-08-30T12:01:06Z) - Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。
この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文 参考訳(メタデータ) (2024-05-14T13:37:36Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning [33.48496141312585]
強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑なエンジニアリングシステムの制御と最適化に広く採用されている。
RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。
本稿では、分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
論文 参考訳(メタデータ) (2024-02-13T12:49:22Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - An Intrusion Response System utilizing Deep Q-Networks and System
Partitions [0.415623340386296]
irs-partitionというIRSソフトウェアプロトタイプを導入・開発する。
非定常系の進化に追従するために移動学習を利用する。
論文 参考訳(メタデータ) (2022-02-16T16:38:20Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - The Adversarial Resilience Learning Architecture for AI-based Modelling,
Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。
ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。
本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2020-05-27T19:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。