論文の概要: SocialJax: An Evaluation Suite for Multi-agent Reinforcement Learning in Sequential Social Dilemmas
- arxiv url: http://arxiv.org/abs/2503.14576v1
- Date: Tue, 18 Mar 2025 16:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:22.627128
- Title: SocialJax: An Evaluation Suite for Multi-agent Reinforcement Learning in Sequential Social Dilemmas
- Title(参考訳): SocialJax:シークエンシャルソーシャルジレンマにおけるマルチエージェント強化学習のための評価スイート
- Authors: Zihao Guo, Richard Willis, Shuqing Shi, Tristan Tomilin, Joel Z. Leibo, Yali Du,
- Abstract要約: 社会的ジレンマは、マルチエージェント強化学習の分野で重要な課題である。
JAXで実装されたシーケンシャルなソーシャルジレンマ環境であるSocialJaxを紹介します。
SocialJaxは、Melt PotのRLlibベースラインと比較して、リアルタイムのパフォーマンスで50texttimesの高速化を実現している。
- 参考スコア(独自算出の注目度): 3.897833712166508
- License:
- Abstract: Social dilemmas pose a significant challenge in the field of multi-agent reinforcement learning (MARL). Melting Pot is an extensive framework designed to evaluate social dilemma environments, providing an evaluation protocol that measures generalization to new social partners across various test scenarios. However, running reinforcement learning algorithms in the official Melting Pot environments demands substantial computational resources. In this paper, we introduce SocialJax, a suite of sequential social dilemma environments implemented in JAX. JAX is a high-performance numerical computing library for Python that enables significant improvements in the operational efficiency of SocialJax on GPUs and TPUs. Our experiments demonstrate that the training pipeline of SocialJax achieves a 50\texttimes{} speedup in real-time performance compared to Melting Pot's RLlib baselines. Additionally, we validate the effectiveness of baseline algorithms within the SocialJax environments. Finally, we use Schelling diagrams to verify the social dilemma properties of these environments, ensuring they accurately capture the dynamics of social dilemmas.
- Abstract(参考訳): 社会的ジレンマはマルチエージェント強化学習(MARL)分野において重要な課題である。
Melting Potは、社会的ジレンマ環境を評価するために設計された広範囲なフレームワークであり、様々なテストシナリオにわたる新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。
しかし、公式なメルティングポット環境で強化学習アルゴリズムを実行するには、かなりの計算資源が必要である。
本稿では、JAXで実装された連続的な社会的ジレンマ環境であるSocialJaxを紹介する。
JAXはPython用の高性能数値計算ライブラリで、GPUやTPU上でのSocialJaxの運用効率を大幅に改善します。
実験の結果,SocialJax のトレーニングパイプラインは Melting Pot の RLlib ベースラインと比較して,リアルタイム性能において 50 バイトタイム{} の高速化を実現していることがわかった。
さらに,SocialJax環境におけるベースラインアルゴリズムの有効性を検証する。
最後に、これらの環境の社会的ジレンマ特性を検証するために、スケジューリングダイアグラムを使用し、社会的ジレンマのダイナミクスを正確に把握する。
関連論文リスト
- SocialED: A Python Library for Social Event Detection [53.928241775629566]
SocialEDは、ソーシャルイベント検出(SED)タスクをサポートするように設計された、包括的なオープンソースのPythonライブラリである。
詳細なドキュメンテーションを備えた統一APIを提供し、研究者や実践者がソーシャルメディアにおけるイベント検出の完全なソリューションを提供する。
SocialEDは、グラフ構築やトークン化など、幅広い事前処理技術をサポートし、モデルのトレーニングや予測のための標準化されたインターフェースを含んでいる。
論文 参考訳(メタデータ) (2024-12-18T03:37:47Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - SOCIALITE-LLAMA: An Instruction-Tuned Model for Social Scientific Tasks [13.152622137022881]
オープンソースでインストラクションをチューニングしたLlamaであるSocialite-Llamaを紹介します。
20種類の社会科学タスクにおいて、Socialite-LlamaはLlamaのパフォーマンスを改善し、最先端のマルチタスク微調整モデルのパフォーマンスをマッチまたは改善する。
論文 参考訳(メタデータ) (2024-02-03T01:33:16Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Balanced and Explainable Social Media Analysis for Public Health with
Large Language Models [13.977401672173533]
公共衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルである。
これらの課題に対処するために、ソーシャルメディアデータセットの高度なデータ拡張手法によって、データの不均衡を克服することができる。
本稿では,公衆衛生に関するソーシャルメディア分析のための新しいALEXフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T04:15:34Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - SocNavGym: A Reinforcement Learning Gym for Social Navigation [0.0]
SocNavGymは、ソーシャルナビゲーションのための高度なシミュレーション環境である。
さまざまなタイプのソーシャルナビゲーションシナリオを生成することができる。
また、さまざまな手作りとデータ駆動のソーシャル報酬信号を扱うように設定することもできる。
論文 参考訳(メタデータ) (2023-04-27T11:29:02Z) - JaxPruner: A concise library for sparsity research [46.153423603424]
JaxPrunerはスパースニューラルネットワーク研究のためのオープンソースライブラリである。
メモリとレイテンシのオーバーヘッドを最小限に抑えながら、一般的なプルーニングとスパーストレーニングアルゴリズムを実装している。
論文 参考訳(メタデータ) (2023-04-27T10:45:30Z) - marl-jax: Multi-Agent Reinforcement Leaning Framework [7.064383217512461]
エージェントの社会的一般化を訓練・評価するためのマルチエージェント強化学習ソフトウェアであるmarl-jaxを提案する。
このパッケージは、マルチエージェント環境でエージェントの集団を訓練し、さまざまなバックグラウンドエージェントに一般化する能力を評価するために設計されている。
論文 参考訳(メタデータ) (2023-03-24T05:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。