論文の概要: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2202.05716v1
- Date: Fri, 11 Feb 2022 15:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:38:52.318864
- Title: Choices, Risks, and Reward Reports: Charting Public Policy for
Reinforcement Learning Systems
- Title(参考訳): 選択・リスク・リワードレポート:強化学習システムのための公共政策のチャート化
- Authors: Thomas Krendl Gilbert, Sarah Dean, Tom Zick, Nathan Lambert
- Abstract要約: 強化学習(Reinforcement Learning, RL)は多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
RL設計選択から生じるリスクの新たなタイプは、水平線をスコーピングし、報酬を定義し、情報を抽出し、複数のエージェントを訓練する4つのカテゴリに分類される。
- 参考スコア(独自算出の注目度): 4.104100616661016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the long term, reinforcement learning (RL) is considered by many AI
theorists to be the most promising path to artificial general intelligence.
This places RL practitioners in a position to design systems that have never
existed before and lack prior documentation in law and policy. Public agencies
could intervene on complex dynamics that were previously too opaque to
deliberate about, and long-held policy ambitions would finally be made
tractable. In this whitepaper we illustrate this potential and how it might be
technically enacted in the domains of energy infrastructure, social media
recommender systems, and transportation. Alongside these unprecedented
interventions come new forms of risk that exacerbate the harms already
generated by standard machine learning tools. We correspondingly present a new
typology of risks arising from RL design choices, falling under four
categories: scoping the horizon, defining rewards, pruning information, and
training multiple agents. Rather than allowing RL systems to unilaterally
reshape human domains, policymakers need new mechanisms for the rule of reason,
foreseeability, and interoperability that match the risks these systems pose.
We argue that criteria for these choices may be drawn from emerging subfields
within antitrust, tort, and administrative law. It will then be possible for
courts, federal and state agencies, and non-governmental organizations to play
more active roles in RL specification and evaluation. Building on the "model
cards" and "datasheets" frameworks proposed by Mitchell et al. and Gebru et
al., we argue the need for Reward Reports for AI systems. Reward Reports are
living documents for proposed RL deployments that demarcate design choices.
- Abstract(参考訳): 長期的には、強化学習(RL)は、多くのAI理論家によって、人工知能への最も有望な道であると考えられている。
これにより、RL実践者は、これまで存在しなかったシステムを設計し、法律や政策に関する事前の文書を欠いている立場に置かれる。
公共機関は、これまで考えづらいほど不透明な複雑なダイナミクスに介入し、長期にわたる政策の野望を最終的に引き付けることができるだろう。
このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。
こうした前例のない介入に加えて、標準的な機械学習ツールによってすでに生成される害を悪化させる新たなタイプのリスクがもたらされる。
RL設計選択から生じるリスクの新たなタイプロジとして,水平線のスコーピング,報酬の定義,情報の抽出,複数エージェントの訓練の4つのカテゴリに該当する。
rlシステムが一方的に人間のドメインを再構築する代わりに、政策立案者は、理性、予測可能性、そしてそれらのシステムがもたらすリスクに合致する相互運用性の新しいメカニズムを必要とします。
これらの選択の基準は、反トラスト法、トレント法、行政法における新興のサブフィールドから引き出される可能性がある。
その後、裁判所、連邦、州機関、および非政府組織がRL仕様および評価においてより積極的な役割を果たすことができる。
Mitchell氏らによって提案された"モデルカード"と"データシート"フレームワークに基づいて、AIシステムに対するリワードレポートの必要性を論じる。
Reward Reportsは、設計選択を分離する提案されたRLデプロイメントのための生きたドキュメントである。
関連論文リスト
- Responsible Artificial Intelligence (RAI) in U.S. Federal Government : Principles, Policies, and Practices [0.0]
人工知能(AI)と機械学習(ML)は、過去数十年で大きな進歩を遂げてきた。
AI/MLの急速な成長と、多くの民間および公共セクターのアプリケーションへの普及は成功したが、規制当局にとって新たな課題と障害が開かれた。
新たな意思決定AI/MLシステムには、人間による関与がほとんど、あるいはほとんど必要とされないため、これらのシステムの責任を負うことを保証する必要が迫られている。
論文 参考訳(メタデータ) (2025-01-12T16:06:37Z) - Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。
OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。
これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文 参考訳(メタデータ) (2024-12-19T14:44:41Z) - Towards Responsible Governing AI Proliferation [0.0]
論文では、小規模で分散化されたオープンソースのAIモデルの台頭を期待するProliferation'パラダイムを紹介している。
これらの発展は、可能性があり、利益と新たなリスクの両方をもたらす可能性が高いことを示唆している。
論文 参考訳(メタデータ) (2024-12-18T13:10:35Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception [4.075971633195745]
ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となっている。
EU(EU)人工知能(AI)法は、AIシステムの厳格な規範と標準を確立することによって、これらの課題に対処することを目的としている。
本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
論文 参考訳(メタデータ) (2024-08-30T12:01:06Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - An Intrusion Response System utilizing Deep Q-Networks and System
Partitions [0.415623340386296]
irs-partitionというIRSソフトウェアプロトタイプを導入・開発する。
非定常系の進化に追従するために移動学習を利用する。
論文 参考訳(メタデータ) (2022-02-16T16:38:20Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - The Adversarial Resilience Learning Architecture for AI-based Modelling,
Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。
ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。
本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2020-05-27T19:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。