論文の概要: SHARPIE: A Modular Framework for Reinforcement Learning and Human-AI Interaction Experiments
- arxiv url: http://arxiv.org/abs/2501.19245v1
- Date: Fri, 31 Jan 2025 15:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:00:58.741783
- Title: SHARPIE: A Modular Framework for Reinforcement Learning and Human-AI Interaction Experiments
- Title(参考訳): SHARPIE:強化学習と人間-AIインタラクション実験のためのモジュールフレームワーク
- Authors: Hüseyin Aydın, Kevin Dubois-Godin, Libio Goncalvez Braz, Floris den Hengst, Kim Baraka, Mustafa Mert Çelikok, Andreas Sauter, Shihan Wang, Frans A. Oliehoek,
- Abstract要約: 強化学習(RL)は、人間とAIのインタラクションシナリオを含む、AIエージェントのモデリングとトレーニングのための一般的なアプローチを提供する。
本稿では,RLエージェントと人間を用いた実験を支援する汎用フレームワークの必要性に対処するため,SHARPIEを提案する。
モジュール設計は、RL環境とアルゴリズムライブラリのための汎用的なラッパー、参加者対応のWebインターフェース、ロギングユーティリティ、人気のあるクラウドへのデプロイ、参加採用プラットフォームで構成されている。
- 参考スコア(独自算出の注目度): 12.116766194212524
- License:
- Abstract: Reinforcement learning (RL) offers a general approach for modeling and training AI agents, including human-AI interaction scenarios. In this paper, we propose SHARPIE (Shared Human-AI Reinforcement Learning Platform for Interactive Experiments) to address the need for a generic framework to support experiments with RL agents and humans. Its modular design consists of a versatile wrapper for RL environments and algorithm libraries, a participant-facing web interface, logging utilities, deployment on popular cloud and participant recruitment platforms. It empowers researchers to study a wide variety of research questions related to the interaction between humans and RL agents, including those related to interactive reward specification and learning, learning from human feedback, action delegation, preference elicitation, user-modeling, and human-AI teaming. The platform is based on a generic interface for human-RL interactions that aims to standardize the field of study on RL in human contexts.
- Abstract(参考訳): 強化学習(RL)は、人間とAIのインタラクションシナリオを含む、AIエージェントのモデリングとトレーニングのための一般的なアプローチを提供する。
本稿では,RLエージェントや人間による実験を支援する汎用フレームワークの必要性に対処するため,SHARPIE(Shared Human-AI Reinforcement Learning Platform for Interactive Experiments)を提案する。
モジュール設計は、RL環境とアルゴリズムライブラリのための汎用的なラッパー、参加者対応のWebインターフェース、ロギングユーティリティ、人気のあるクラウドへのデプロイ、参加採用プラットフォームで構成されている。
研究者は、人間とRLエージェントの相互作用に関する、インタラクティブな報酬仕様と学習、人間のフィードバックからの学習、行動委任、嗜好の誘惑、ユーザーモデリング、人間とAIのコラボレーションなど、幅広い研究課題を研究できる。
このプラットフォームは、人間のコンテキストにおけるRLの研究分野の標準化を目的とした、人間-RLインタラクションのための汎用インターフェースに基づいている。
関連論文リスト
- Survey of User Interface Design and Interaction Techniques in Generative AI Applications [79.55963742878684]
我々は,デザイナやディベロッパの参照として使用できる,さまざまなユーザインタラクションパターンのコンペレーションを作ることを目指している。
また、生成AIアプリケーションの設計についてもっと学ぼうとする人たちの参入障壁を低くしようと努力しています。
論文 参考訳(メタデータ) (2024-10-28T23:10:06Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming [14.250120245287109]
我々は、人間-AI PbRL協調ゲームを開発し、RLエージェントが、作業目標と人間の協調行動への嗜好を引き出すために、人間-AI PbRL協調ゲームを開発する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
論文 参考訳(メタデータ) (2023-12-21T20:48:15Z) - Human-AI Coevolution [48.74579595505374]
Coevolution AIは、人間とAIアルゴリズムが相互に連続的に影響を及ぼすプロセスである。
本稿では,AIと複雑性科学の交点における新たな研究分野の基盤として,Coevolution AIを紹介した。
論文 参考訳(メタデータ) (2023-06-23T18:10:54Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Using Cognitive Models to Train Warm Start Reinforcement Learning Agents
for Human-Computer Interactions [6.623676799228969]
本稿では,実ユーザに適用する前に,認知モデルを用いてRLエージェントを事前訓練する手法を提案する。
本研究の方法論的アプローチを概説し, 従来および現在進行中のプロジェクトから2つのケーススタディを提出した。
論文 参考訳(メタデータ) (2021-03-10T16:20:02Z) - The AI Arena: A Framework for Distributed Multi-Agent Reinforcement
Learning [0.3437656066916039]
分散マルチエージェント強化学習のための柔軟な抽象化を備えたスケーラブルなフレームワークであるAI Arenaを紹介します。
複数の異なる学習環境において、一般的なRL技術よりも分散マルチエージェント学習アプローチによる性能向上を示す。
論文 参考訳(メタデータ) (2021-03-09T22:16:19Z) - Improving Reinforcement Learning with Human Assistance: An Argument for
Human Subject Studies with HIPPO Gym [21.4215863934377]
強化学習(Reinforcement Learning、RL)は、ゲームプレイ、ロボティクス制御、その他のシーケンシャルな意思決定タスクのための一般的な機械学習パラダイムである。
本稿では,オープンソースRLフレームワークであるHuman Input Parsing Platform for Openai Gym(HIPPO Gym)を紹介します。
論文 参考訳(メタデータ) (2021-02-02T12:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。