論文の概要: Human Machine Co-adaption Interface via Cooperation Markov Decision
Process System
- arxiv url: http://arxiv.org/abs/2305.02058v1
- Date: Wed, 3 May 2023 12:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:04:38.686285
- Title: Human Machine Co-adaption Interface via Cooperation Markov Decision
Process System
- Title(参考訳): 協調マルコフ決定処理システムによるヒューマンマシン協調インタフェース
- Authors: Kairui Guo, Adrian Cheng, Yaqi Li, Jun Li, Rob Duffield, Steven W. Su
- Abstract要約: 本稿では,モデルに基づく強化学習による協調適応手法を提案する。
本研究では,ロボット支援リハビリテーションの全過程を協調的・相互学習プロセスとして扱う。
- 参考スコア(独自算出の注目度): 8.68491060014975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to develop a new human-machine interface to improve
rehabilitation performance from the perspective of both the user (patient) and
the machine (robot) by introducing the co-adaption techniques via model-based
reinforcement learning. Previous studies focus more on robot assistance, i.e.,
to improve the control strategy so as to fulfill the objective of
Assist-As-Needed. In this study, we treat the full process of robot-assisted
rehabilitation as a co-adaptive or mutual learning process and emphasize the
adaptation of the user to the machine. To this end, we proposed a Co-adaptive
MDPs (CaMDPs) model to quantify the learning rates based on cooperative
multi-agent reinforcement learning (MARL) in the high abstraction layer of the
systems. We proposed several approaches to cooperatively adjust the Policy
Improvement among the two agents in the framework of Policy Iteration. Based on
the proposed co-adaptive MDPs, the simulation study indicates the
non-stationary problem can be mitigated using various proposed Policy
Improvement approaches.
- Abstract(参考訳): 本稿では,患者(患者)と機械(ロボット)の両方の観点から,モデルに基づく強化学習を通じて協調適応技術を導入することにより,リハビリテーション性能を向上させる新しいヒューマンマシンインタフェースを開発することを目的とする。
従来の研究は、ロボット支援、すなわち、支援の目的を達成するために、制御戦略を改善することに焦点を当てていた。
本研究では,ロボット支援リハビリテーションの全過程を,協調的あるいは相互学習プロセスとして扱い,利用者の機械への適応を強調する。
そこで本研究では,協調型マルチエージェント強化学習(MARL)に基づく学習率の定量化を目的とした,協調適応型MDP(CaMDP)モデルを提案する。
政策イテレーションの枠組みにおいて,2つのエージェント間の政策改善を協調的に調整するためのいくつかのアプローチを提案した。
提案した協調適応型MDPから, 様々な政策改善手法を用いて, 非定常問題を緩和できることを示す。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Self-Adaptive Large Language Model (LLM)-Based Multiagent Systems [0.0]
本稿では,大規模言語モデル(LLM)をマルチエージェントシステムに統合することを提案する。
我々は、モニタリング、分析、計画、システム適応の実行において堅牢なサポートで有名であるMAPE-Kモデルに、我々の方法論を固定する。
論文 参考訳(メタデータ) (2023-07-12T14:26:46Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-Task Model Personalization for Federated Supervised SVM in
Heterogeneous Networks [10.169907307499916]
フェデレーションシステムは、モデルパーソナライゼーションを通じて、高度に異質なデータの協調トレーニングを可能にする。
マルチタスク・フェデレーション・セッティングにおける多様な参加者の学習手順を高速化するためには、より効率的で堅牢な手法を開発する必要がある。
本稿では,支援ベクトルマシン(SVM)のための乗算器の交互方向法(ADMM)に基づく効率的な反復分散手法を設計する。
提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換を利用し、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。
論文 参考訳(メタデータ) (2023-03-17T21:36:01Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement
Learning [14.128178683323108]
本研究では,Surrogate-assisted Controller (SC)を提案する。
鍵となる課題は、サロゲートによって導入された偽のミニマによって最適化プロセスが誤解されるのを防ぐことである。
OpenAI Gymプラットフォームによる6つの継続的制御タスクの実験は、SCがフィットネス評価のコストを大幅に削減できるだけでなく、オリジナルのハイブリッドフレームワークのパフォーマンスも向上できることを示している。
論文 参考訳(メタデータ) (2022-01-01T06:42:51Z) - Towards Better Adaptive Systems by Combining MAPE, Control Theory, and
Machine Learning [16.998805882711864]
適応システムを設計するための2つの確立されたアプローチは、監視分析計画実行ループを使用するアーキテクチャベースの適応と、適応を実現するための制御理論(ct)の原則に依存する制御ベースの適応である。
私たちは、これらのアプローチが相互にどのように関連しているか、それらを組み合わせて機械学習をサポートすることがよりよい適応システムを生み出すかどうか、という問題に関係しています。
我々は、クラウドベースのエンタープライズシステムのシナリオを用いて、異なる適応アプローチを組み合わせる動機付け、異なるアプローチを組み合わせる際に分析を説明する。
論文 参考訳(メタデータ) (2021-03-19T15:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。