Fugu-MT 論文翻訳(概要): Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems

論文の概要: Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems

arxiv url: http://arxiv.org/abs/2202.05716v1
Date: Fri, 11 Feb 2022 15:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-14 16:38:52.318864
Title: Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems
Title（参考訳）: 選択・リスク・リワードレポート:強化学習システムのための公共政策のチャート化
Authors: Thomas Krendl Gilbert, Sarah Dean, Tom Zick, Nathan Lambert
Abstract要約: 強化学習(Reinforcement Learning, RL)は多くのAI理論家によって、人工知能への最も有望な道であると考えられている。このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。 RL設計選択から生じるリスクの新たなタイプは、水平線をスコーピングし、報酬を定義し、情報を抽出し、複数のエージェントを訓練する4つのカテゴリに分類される。
参考スコア（独自算出の注目度）: 4.104100616661016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the long term, reinforcement learning (RL) is considered by many AI theorists to be the most promising path to artificial general intelligence. This places RL practitioners in a position to design systems that have never existed before and lack prior documentation in law and policy. Public agencies could intervene on complex dynamics that were previously too opaque to deliberate about, and long-held policy ambitions would finally be made tractable. In this whitepaper we illustrate this potential and how it might be technically enacted in the domains of energy infrastructure, social media recommender systems, and transportation. Alongside these unprecedented interventions come new forms of risk that exacerbate the harms already generated by standard machine learning tools. We correspondingly present a new typology of risks arising from RL design choices, falling under four categories: scoping the horizon, defining rewards, pruning information, and training multiple agents. Rather than allowing RL systems to unilaterally reshape human domains, policymakers need new mechanisms for the rule of reason, foreseeability, and interoperability that match the risks these systems pose. We argue that criteria for these choices may be drawn from emerging subfields within antitrust, tort, and administrative law. It will then be possible for courts, federal and state agencies, and non-governmental organizations to play more active roles in RL specification and evaluation. Building on the "model cards" and "datasheets" frameworks proposed by Mitchell et al. and Gebru et al., we argue the need for Reward Reports for AI systems. Reward Reports are living documents for proposed RL deployments that demarcate design choices.
Abstract（参考訳）: 長期的には、強化学習(RL)は、多くのAI理論家によって、人工知能への最も有望な道であると考えられている。これにより、RL実践者は、これまで存在しなかったシステムを設計し、法律や政策に関する事前の文書を欠いている立場に置かれる。公共機関は、これまで考えづらいほど不透明な複雑なダイナミクスに介入し、長期にわたる政策の野望を最終的に引き付けることができるだろう。このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。こうした前例のない介入に加えて、標準的な機械学習ツールによってすでに生成される害を悪化させる新たなタイプのリスクがもたらされる。 RL設計選択から生じるリスクの新たなタイプロジとして,水平線のスコーピング,報酬の定義,情報の抽出,複数エージェントの訓練の4つのカテゴリに該当する。 rlシステムが一方的に人間のドメインを再構築する代わりに、政策立案者は、理性、予測可能性、そしてそれらのシステムがもたらすリスクに合致する相互運用性の新しいメカニズムを必要とします。これらの選択の基準は、反トラスト法、トレント法、行政法における新興のサブフィールドから引き出される可能性がある。その後、裁判所、連邦、州機関、および非政府組織がRL仕様および評価においてより積極的な役割を果たすことができる。 Mitchell氏らによって提案された"モデルカード"と"データシート"フレームワークに基づいて、AIシステムに対するリワードレポートの必要性を論じる。 Reward Reportsは、設計選択を分離する提案されたRLデプロイメントのための生きたドキュメントである。

関連論文リスト

When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems [78.04679174291329]
悪意のあるマルチエージェントシステム(MAS)のリスクをシミュレートするための概念実証手法を提案する。この枠組みを、誤情報拡散とeコマース詐欺という2つのリスクの高い分野に適用する。その結果,分散システムの方が,集中型システムよりも悪意ある行動を実行するのに効果的であることが示唆された。
論文参考訳（メタデータ） (2025-07-19T15:17:30Z)
Position Paper: Rethinking Privacy in RL for Sequential Decision-making in the Age of LLMs [46.828146821060265]
マルチスケール保護,行動パターン保護,協調プライバシ保護,コンテキスト認識適応という,4つの基本原則に基づいて構築された新たなプライバシパラダイムについて論じる。これらの原則は、医療、自動運転車、およびLSMによる意思決定支援システムのような高度な領域において、RLシステムがより広く普及するにつれて、プライバシー、実用性、解釈可能性の間に固有の緊張関係を浮き彫りにする。
論文参考訳（メタデータ） (2025-04-15T10:45:55Z)
Responsible Artificial Intelligence (RAI) in U.S. Federal Government : Principles, Policies, and Practices [0.0]
人工知能(AI)と機械学習(ML)は、過去数十年で大きな進歩を遂げてきた。 AI/MLの急速な成長と、多くの民間および公共セクターのアプリケーションへの普及は成功したが、規制当局にとって新たな課題と障害が開かれた。新たな意思決定AI/MLシステムには、人間による関与がほとんど、あるいはほとんど必要とされないため、これらのシステムの責任を負うことを保証する必要が迫られている。
論文参考訳（メタデータ） (2025-01-12T16:06:37Z)
Towards Responsible Governing AI Proliferation [0.0]
論文では、小規模で分散化されたオープンソースのAIモデルの台頭を期待するProliferation'パラダイムを紹介している。これらの発展は、可能性があり、利益と新たなリスクの両方をもたらす可能性が高いことを示唆している。
論文参考訳（メタデータ） (2024-12-18T13:10:35Z)
The Duality of Generative AI and Reinforcement Learning in Robotics: A Review [0.818052289014297]
生成型AIと強化学習(RL)は、情報フローを入力として取り、インテリジェントな振る舞いを生成するAIエージェントに何ができるかを再定義してきた。本稿では,ロボット工学の発展のために,生成型AIモデルとRLの統合について検討する。
論文参考訳（メタデータ） (2024-10-21T18:27:48Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception [4.075971633195745]
ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となっている。 EU(EU)人工知能(AI)法は、AIシステムの厳格な規範と標準を確立することによって、これらの課題に対処することを目的としている。本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
論文参考訳（メタデータ） (2024-08-30T12:01:06Z)
Risks and Opportunities of Open-Source Generative AI [64.86989162783648]
Generative AI(Gen AI)の応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の変化の可能性は、この技術の潜在的なリスクについて活発に議論を巻き起こし、より厳格な規制を要求した。この規制は、オープンソースの生成AIの誕生する分野を危険にさらす可能性がある。
論文参考訳（メタデータ） (2024-05-14T13:37:36Z)
Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文参考訳（メタデータ） (2024-04-25T21:14:24Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning [33.48496141312585]
強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑なエンジニアリングシステムの制御と最適化に広く採用されている。 RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。本稿では、分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
論文参考訳（メタデータ） (2024-02-13T12:49:22Z)
Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文参考訳（メタデータ） (2022-05-26T17:56:43Z)
An Intrusion Response System utilizing Deep Q-Networks and System Partitions [0.415623340386296]
irs-partitionというIRSソフトウェアプロトタイプを導入・開発する。非定常系の進化に追従するために移動学習を利用する。
論文参考訳（メタデータ） (2022-02-16T16:38:20Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
The Adversarial Resilience Learning Architecture for AI-based Modelling, Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。 ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文参考訳（メタデータ） (2020-05-27T19:19:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。