論文の概要: Adaptive reinforcement learning of multi-agent ethically-aligned
behaviours: the QSOM and QDSOM algorithms
- arxiv url: http://arxiv.org/abs/2307.00552v1
- Date: Sun, 2 Jul 2023 12:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:26:53.270345
- Title: Adaptive reinforcement learning of multi-agent ethically-aligned
behaviours: the QSOM and QDSOM algorithms
- Title(参考訳): 多エージェント倫理的行動の適応的強化学習:QSOMとQDSOMアルゴリズム
- Authors: R\'emy Chaput, Olivier Boissier, Mathieu Guillermin
- Abstract要約: 本稿では,環境変化に適応可能なQSOMとQDSOMという2つのアルゴリズムを提案する。
我々は、小さなスマートグリッド地区におけるマルチエージェントエネルギー分割のユースケースでそれらを評価した。
- 参考スコア(独自算出の注目度): 0.9238700679836853
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The numerous deployed Artificial Intelligence systems need to be aligned with
our ethical considerations. However, such ethical considerations might change
as time passes: our society is not fixed, and our social mores evolve. This
makes it difficult for these AI systems; in the Machine Ethics field
especially, it has remained an under-studied challenge. In this paper, we
present two algorithms, named QSOM and QDSOM, which are able to adapt to
changes in the environment, and especially in the reward function, which
represents the ethical considerations that we want these systems to be aligned
with. They associate the well-known Q-Table to (Dynamic) Self-Organizing Maps
to handle the continuous and multi-dimensional state and action spaces. We
evaluate them on a use-case of multi-agent energy repartition within a small
Smart Grid neighborhood, and prove their ability to adapt, and their higher
performance compared to baseline Reinforcement Learning algorithms.
- Abstract(参考訳): 多数のデプロイされた人工知能システムは、われわれの倫理的配慮に沿う必要がある。
しかし、このような倫理的考察は時が経つにつれて変わるかもしれない:我々の社会は固定されておらず、社会は進化する。
これはこれらのAIシステムにとって難しく、特にマシン倫理分野においては、未研究の課題である。
本稿では,環境の変化に適応可能なqsomとqdsomという2つのアルゴリズム,特にこれらのシステムと連携させたい倫理的考察を表す報酬関数を提案する。
彼らは有名なQ-Tableを(動的)自己組織化マップに関連付け、連続的かつ多次元の状態と行動空間を扱う。
本研究では,小規模のスマートグリッド近傍におけるマルチエージェントエネルギー分割の利用事例について評価し,その適応能力と,ベースライン強化学習アルゴリズムと比較して高い性能を示す。
関連論文リスト
- Navigating the sociotechnical labyrinth: Dynamic certification for responsible embodied AI [19.959138971887395]
我々は、社会技術的要求が人工知性(AI)システムのガバナンスを形成することを論じる。
提案する学際的アプローチは,AIシステムの安全性,倫理的,実践的な展開を保証するために設計されている。
論文 参考訳(メタデータ) (2024-08-16T08:35:26Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Modelos din\^amicos aplicados \`a aprendizagem de valores em
intelig\^encia artificial [0.0]
この地域の数人の研究者が、人間と環境の保存のための堅牢で有益な、安全なAIの概念を開発した。
人工知能エージェントが人間の価値観に合わせた価値を持っていることは、最も重要である。
おそらくこの難しさは、認知的手法を使って価値を表現するという問題に対処する方法から来ています。
論文 参考訳(メタデータ) (2020-07-30T00:56:11Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z) - Trustworthy AI in the Age of Pervasive Computing and Big Data [22.92621391190282]
我々は倫理的観点から信頼に値するAIシステムの要件を定式化する。
研究状況と残りの課題について議論した後、スマートシティにおける具体的なユースケースがこれらの方法のメリットを如何に示すかを示す。
論文 参考訳(メタデータ) (2020-01-30T08:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。