論文の概要: BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay
- arxiv url: http://arxiv.org/abs/2402.14194v2
- Date: Thu, 11 Jul 2024 16:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:17:39.758256
- Title: BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay
- Title(参考訳): BeTAIL: 人間のレーシングゲームプレイによる行動変換器逆転模倣学習
- Authors: Catherine Weaver, Chen Tang, Ce Hao, Kenta Kawamoto, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: 模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。
本稿では,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。
我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。
- 参考スコア(独自算出の注目度): 48.75878234995544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning learns a policy from demonstrations without requiring hand-designed reward functions. In many robotic tasks, such as autonomous racing, imitated policies must model complex environment dynamics and human decision-making. Sequence modeling is highly effective in capturing intricate patterns of motion sequences but struggles to adapt to new environments or distribution shifts that are common in real-world robotics tasks. In contrast, Adversarial Imitation Learning (AIL) can mitigate this effect, but struggles with sample inefficiency and handling complex motion patterns. Thus, we propose BeTAIL: Behavior Transformer Adversarial Imitation Learning, which combines a Behavior Transformer (BeT) policy from human demonstrations with online AIL. BeTAIL adds an AIL residual policy to the BeT policy to model the sequential decision-making process of human experts and correct for out-of-distribution states or shifts in environment dynamics. We test BeTAIL on three challenges with expert-level demonstrations of real human gameplay in Gran Turismo Sport. Our proposed residual BeTAIL reduces environment interactions and improves racing performance and stability, even when the BeT is pretrained on different tracks than downstream learning. Videos and code available at: https://sites.google.com/berkeley.edu/BeTAIL/home.
- Abstract(参考訳): 模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。
自律レースのような多くのロボットタスクでは、模倣されたポリシーは複雑な環境力学と人間の意思決定をモデル化する必要がある。
シーケンスモデリングは、複雑な動きのパターンを捉えるのに非常に効果的であるが、現実のロボット工学のタスクで一般的な新しい環境や分布の変化に適応するのに苦労する。
対照的に、AIL(Adversarial Imitation Learning)は、この効果を緩和することができるが、サンプルの非効率性と複雑な動きパターンの扱いに苦慮している。
そこで我々は,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。
BeTAILは、BeTポリシーにAIL残留ポリシーを追加し、人間の専門家のシーケンシャルな意思決定プロセスをモデル化し、環境力学におけるアウト・オブ・ディストリビューション状態やシフトを正す。
我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。
提案する残留BeTAILは,下流学習と異なるトラック上でBeTを事前学習した場合であっても,環境相互作用を低減し,レース性能と安定性を向上させる。
ビデオとコードは、https://sites.google.com/berkeley.edu/BeTAIL/home.comで公開されている。
関連論文リスト
- VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System [5.497832119577795]
厳格なロボットを使った、きめ細やかな、接触に富んだ操作は、ロボット工学において重要な課題である。
外部センサを介して力を制御することでこれらの問題を緩和するために、コンプライアンス制御スキームが導入されている。
Demonstrationsからの学習は直感的な代替手段であり、ロボットは観察された動作を通じて操作を学習できる。
論文 参考訳(メタデータ) (2024-06-21T09:03:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation [32.78083518963342]
SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Modeling Human Driving Behavior through Generative Adversarial Imitation
Learning [7.387855463533219]
本稿では、学習に基づくドライバモデリングにおけるGAIL(Generative Adversarial Imitation Learning)の使用について述べる。
ドライバモデリングは本質的にマルチエージェント問題であるため,PS-GAILと呼ばれるGAILのパラメータ共有拡張について述べる。
本稿では、報酬信号を変更し、エージェントにドメイン固有の知識を提供するReward Augmented Imitation Learning (RAIL)について述べる。
論文 参考訳(メタデータ) (2020-06-10T05:47:39Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。