論文の概要: A Learning Algorithm That Attains the Human Optimum in a Repeated Human-Machine Interaction Game
- arxiv url: http://arxiv.org/abs/2501.08626v1
- Date: Wed, 15 Jan 2025 07:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:18.495048
- Title: A Learning Algorithm That Attains the Human Optimum in a Repeated Human-Machine Interaction Game
- Title(参考訳): 繰り返し人間と機械の相互作用ゲームにおける人間の最適性を実現する学習アルゴリズム
- Authors: Jason T. Isa, Lillian J. Ratliff, Samuel A. Burden,
- Abstract要約: 本稿では,人間の行動を観察して最小限のコストを求めるゲーム理論学習アルゴリズムについて述べる。
我々は,広範囲な被験者実験において,アルゴリズムの性能を評価する。
- 参考スコア(独自算出の注目度): 13.903364545795336
- License:
- Abstract: When humans interact with learning-based control systems, a common goal is to minimize a cost function known only to the human. For instance, an exoskeleton may adapt its assistance in an effort to minimize the human's metabolic cost-of-transport. Conventional approaches to synthesizing the learning algorithm solve an inverse problem to infer the human's cost. However, these problems can be ill-posed, hard to solve, or sensitive to problem data. Here we show a game-theoretic learning algorithm that works solely by observing human actions to find the cost minimum, avoiding the need to solve an inverse problem. We evaluate the performance of our algorithm in an extensive set of human subjects experiments, demonstrating consistent convergence to the minimum of a prescribed human cost function in scalar and multidimensional instantiations of the game. We conclude by outlining future directions for theoretical and empirical extensions of our results.
- Abstract(参考訳): 人間が学習に基づく制御システムと対話する場合、共通のゴールは、人間にしか知られていないコスト関数を最小限にすることである。
例えば、外骨格は、ヒトの代謝的輸送コストを最小限に抑えるために、その補助に適応する可能性がある。
学習アルゴリズムを合成するための従来のアプローチは、人間のコストを推測するために逆問題を解決する。
しかし、これらの問題は悪用され、解決が困難であり、問題データに敏感である。
ここでは,人間の行動を観察してコストを最小化し,逆問題の解決を回避できるゲーム理論学習アルゴリズムを提案する。
本研究では,ゲーム内のスカラーおよび多次元のインスタンス化において,所定の人的コスト関数の最小値に一貫した収束性を示す。
結果の理論的および実証的拡張の今後の方向性を概説して結論付ける。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Synthetically Generating Human-like Data for Sequential Decision Making
Tasks via Reward-Shaped Imitation Learning [0.5801044612920815]
我々は,コンピュータゲームのような対話型人間AIシステムにおいて,人間の判断と密接に類似するデータを合成的に生成する問題を考える。
そこで本研究では,人間から収集した意思決定データのごく小さなセットから始まりながら,人間的な意思決定データを生成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-14T17:48:57Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive
Imitation Learning [23.177329496817105]
ThriftyDAgger(スリフティダガー)は、人間の介入の予算が与えられたら、人間の上司に問い合わせるアルゴリズムである。
実験により、ThriftyDAggerの介入基準はタスクのパフォーマンスとオーバヘッドを以前のアルゴリズムよりも効果的にバランスしていることが示唆された。
論文 参考訳(メタデータ) (2021-09-17T01:21:16Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z) - Expressing Diverse Human Driving Behavior with Probabilistic Rewards and
Online Inference [34.05002276323983]
コスト/リワード学習(英: Cost/reward learning)は、人間の振る舞いを学習し、表現するための効率的な方法である。
本稿では,連続領域におけるコスト関数の分布を直接学習する確率的IRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-20T07:32:45Z) - Human-Robot Team Coordination with Dynamic and Latent Human Task
Proficiencies: Scheduling with Learning Curves [0.0]
ロボットが人間のチームメイトの相対的な強みと学習能力を探索できる新しい資源調整手法を提案する。
我々は、最新の個人労働者の熟練度を発見しながら、頑健なスケジュールを作成し、評価する。
その結果,人間とロボットのコラボレーションには,探索に有利なスケジューリング戦略が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-07-03T19:44:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。