論文の概要: Offline Risk-sensitive RL with Partial Observability to Enhance
Performance in Human-Robot Teaming
- arxiv url: http://arxiv.org/abs/2402.05703v1
- Date: Thu, 8 Feb 2024 14:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:38:02.125271
- Title: Offline Risk-sensitive RL with Partial Observability to Enhance
Performance in Human-Robot Teaming
- Title(参考訳): 人間-ロボットチームにおける部分可観測性を有するオフラインリスクセンシティブrlの性能向上
- Authors: Giorgio Angelotti, Caroline P. C. Chanel, Adam H. M. Pinto, Christophe
Lounis, Corentin Chauffaut, Nicolas Drougard
- Abstract要約: 本稿では,モデルの不確実性を取り入れ,リスクに敏感なシーケンシャルな意思決定を可能にする手法を提案する。
シミュレーションロボット遠隔操作環境において,26名の被験者を対象に実験を行った。
- 参考スコア(独自算出の注目度): 1.3980986259786223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of physiological computing into mixed-initiative human-robot
interaction systems offers valuable advantages in autonomous task allocation by
incorporating real-time features as human state observations into the
decision-making system. This approach may alleviate the cognitive load on human
operators by intelligently allocating mission tasks between agents.
Nevertheless, accommodating a diverse pool of human participants with varying
physiological and behavioral measurements presents a substantial challenge. To
address this, resorting to a probabilistic framework becomes necessary, given
the inherent uncertainty and partial observability on the human's state. Recent
research suggests to learn a Partially Observable Markov Decision Process
(POMDP) model from a data set of previously collected experiences that can be
solved using Offline Reinforcement Learning (ORL) methods. In the present work,
we not only highlight the potential of partially observable representations and
physiological measurements to improve human operator state estimation and
performance, but also enhance the overall mission effectiveness of a
human-robot team. Importantly, as the fixed data set may not contain enough
information to fully represent complex stochastic processes, we propose a
method to incorporate model uncertainty, thus enabling risk-sensitive
sequential decision-making. Experiments were conducted with a group of
twenty-six human participants within a simulated robot teleoperation
environment, yielding empirical evidence of the method's efficacy. The obtained
adaptive task allocation policy led to statistically significant higher scores
than the one that was used to collect the data set, allowing for generalization
across diverse participants also taking into account risk-sensitive metrics.
- Abstract(参考訳): 複合開始型人間-ロボット相互作用システムへの生理的コンピューティングの統合は、人間の状態観察としてリアルタイム特徴を意思決定システムに組み込むことによって、自律的なタスク割り当てにおいて重要な利点を提供する。
このアプローチは、エージェント間のミッションタスクをインテリジェントに割り当てることで、人間のオペレータに対する認知負荷を軽減することができる。
それでも、さまざまな生理的・行動的測定で多様な参加者プールを適応させることは、大きな課題となっている。
これに対処するには、人間の状態に対する固有の不確実性と部分的可観測性を考えると、確率的枠組みに頼る必要がある。
近年の研究では、オフライン強化学習(ORL)手法を用いて解決可能な、以前に収集した経験のデータセットから、部分観測可能なマルコフ決定プロセス(POMDP)モデルを学習することを示唆している。
本研究では,人間操作者の状態推定と性能を向上させるために,部分的に観察可能な表現と生理的測定の可能性に留意するだけでなく,人間-ロボットチーム全体のミッション効率を向上させる。
重要なことは、固定データセットは複雑な確率過程を完全に表現するのに十分な情報を含んでいないため、モデルの不確実性を取り入れ、リスクに敏感なシーケンシャルな意思決定を可能にする方法を提案する。
シミュレーションロボット遠隔操作環境において,26人の被験者を対象に実験を行い,その有効性の実証的証拠を得た。
得られた適応的タスク割り当てポリシーは、データセットの収集に使用されたものよりも統計的に高いスコアをもたらし、リスクに敏感な指標を考慮に入れた様々な参加者の一般化を可能にした。
関連論文リスト
- Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - Investigations of Performance and Bias in Human-AI Teamwork in Hiring [30.046502708053097]
AIによる意思決定では、効果的なハイブリッドチームワーク(ヒューマンAI)は、AIのパフォーマンスにのみ依存するものではない。
本研究では,モデルの予測性能とバイアスの両方が,推薦型意思決定タスクにおいてどのように人間に伝達されるかを検討する。
論文 参考訳(メタデータ) (2022-02-21T17:58:07Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。