論文の概要: Disturbance Injection under Partial Automation: Robust Imitation
Learning for Long-horizon Tasks
- arxiv url: http://arxiv.org/abs/2303.12375v1
- Date: Wed, 22 Mar 2023 08:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:53:39.987200
- Title: Disturbance Injection under Partial Automation: Robust Imitation
Learning for Long-horizon Tasks
- Title(参考訳): 部分的自動化による外乱インジェクション:長期ホリゾン課題に対するロバスト模倣学習
- Authors: Hirotaka Tahara, Hikaru Sasaki, Hanbit Oh, Edgar Anarossi, and
Takamitsu Matsubara
- Abstract要約: 知的支援システムを備えた部分自動化(PA)が産業機械や先進自動車に導入されている。
本稿では、新しい模倣学習フレームワークとして、部分的自動化下での外乱注入(DIPA)を提案する。
本手法の有効性を2つのシミュレーションと実ロボット環境において実験的に検証した。
- 参考スコア(独自算出の注目度): 11.554935619056819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partial Automation (PA) with intelligent support systems has been introduced
in industrial machinery and advanced automobiles to reduce the burden of long
hours of human operation. Under PA, operators perform manual operations
(providing actions) and operations that switch to automatic/manual mode
(mode-switching). Since PA reduces the total duration of manual operation,
these two action and mode-switching operations can be replicated by imitation
learning with high sample efficiency. To this end, this paper proposes
Disturbance Injection under Partial Automation (DIPA) as a novel imitation
learning framework. In DIPA, mode and actions (in the manual mode) are assumed
to be observables in each state and are used to learn both action and
mode-switching policies. The above learning is robustified by injecting
disturbances into the operator's actions to optimize the disturbance's level
for minimizing the covariate shift under PA. We experimentally validated the
effectiveness of our method for long-horizon tasks in two simulations and a
real robot environment and confirmed that our method outperformed the previous
methods and reduced the demonstration burden.
- Abstract(参考訳): 知的支援システムを備えた部分自動化(PA)が産業機械や先進自動車に導入され、長時間の人的作業の負担を軽減している。
paでは、オペレータは手動操作(アクション提供)と自動/手動モード(モードスイッチング)に切り替える操作を行う。
PAは手動操作の総時間を削減するので、これらの2つの動作とモードスイッチング操作は、高いサンプル効率で模倣学習によって複製することができる。
そこで本稿では,新しい模倣学習フレームワークとして部分自動化(dipa)による外乱注入を提案する。
DIPAでは、モードとアクション(手動モード)は各状態で観測可能であると仮定され、アクションとモードスイッチングの両方のポリシーを学ぶために使用される。
上記の学習は、pa下の共変量シフトを最小化するために、操作者の動作に外乱を注入して外乱のレベルを最適化することで強化される。
本手法の有効性を2つのシミュレーションと実ロボット環境において実験的に検証し,本手法が従来の手法よりも優れ,実証作業の負担を軽減できることを確認した。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - AtP*: An efficient and scalable method for localizing LLM behaviour to
components [6.47684348405662]
Attribution Patching (AtP) は高速勾配に基づく Activation Patching の近似である。
本稿では,アクティベーションパッチの高速化のためのAtPと代替手法に関する最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2024-03-01T18:43:51Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Whole-Body Control of a Mobile Manipulator using End-to-End
Reinforcement Learning [31.150823782805283]
WBC(Whole-Body Control)に対するエンドツーエンド強化学習(RL)アプローチを提案する。
シミュレーションでは,学習したコントローラを最先端のサンプリングベース手法と比較し,全体のミッションタイムを高速化した。
論文 参考訳(メタデータ) (2020-02-25T21:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。