論文の概要: Behavior Transformers: Cloning $k$ modes with one stone
- arxiv url: http://arxiv.org/abs/2206.11251v1
- Date: Wed, 22 Jun 2022 17:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:02:59.767297
- Title: Behavior Transformers: Cloning $k$ modes with one stone
- Title(参考訳): ビヘイビアトランスフォーマー:1石で$k$モードをクローンする
- Authors: Nur Muhammad Mahi Shafiullah, Zichen Jeff Cui, Ariuntuya Altanzaya,
Lerrel Pinto
- Abstract要約: 複数のモードでラベルなしのデモデータをモデル化する新しい手法であるBeT(Beby Transformer)を提案する。
さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。
- 参考スコア(独自算出の注目度): 15.037262986065267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While behavior learning has made impressive progress in recent times, it lags
behind computer vision and natural language processing due to its inability to
leverage large, human-generated datasets. Human behaviors have wide variance,
multiple modes, and human demonstrations typically do not come with reward
labels. These properties limit the applicability of current methods in Offline
RL and Behavioral Cloning to learn from large, pre-collected datasets. In this
work, we present Behavior Transformer (BeT), a new technique to model unlabeled
demonstration data with multiple modes. BeT retrofits standard transformer
architectures with action discretization coupled with a multi-task action
correction inspired by offset prediction in object detection. This allows us to
leverage the multi-modal modeling ability of modern transformers to predict
multi-modal continuous actions. We experimentally evaluate BeT on a variety of
robotic manipulation and self-driving behavior datasets. We show that BeT
significantly improves over prior state-of-the-art work on solving demonstrated
tasks while capturing the major modes present in the pre-collected datasets.
Finally, through an extensive ablation study, we analyze the importance of
every crucial component in BeT. Videos of behavior generated by BeT are
available at https://notmahi.github.io/bet
- Abstract(参考訳): 近年、行動学習は目覚ましい進歩を遂げているが、人間の生成した大規模なデータセットを活用できないため、コンピュータビジョンや自然言語処理に遅れを取っている。
人間の行動は幅広いばらつきを持ち、複数のモードがあり、人間のデモは通常報酬ラベルを持っていない。
これらの特性は、オフラインRLおよびビヘイビア・クローンにおける現在のメソッドの適用性を制限する。
本研究では,複数のモードでラベルのない実演データをモデル化する新しい手法であるBeTを提案する。
BeTは、オブジェクト検出におけるオフセット予測にインスパイアされたマルチタスクアクション補正と合わせて、アクションの離散化を伴う標準トランスフォーマーアーキテクチャに適合する。
これにより、現代変圧器のマルチモーダルモデリング能力を利用して、マルチモーダル連続動作を予測することができる。
さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。
我々は,事前収集したデータセットに存在する主要なモードをキャプチャしながら,実演されたタスクを解決するための事前の作業よりも,betが大幅に改善することを示す。
最後に, 広範囲なアブレーション研究を通じて, 賭けにおける重要成分の重要度を解析した。
BeTが生成した振る舞いのビデオはhttps://notmahi.github.io/betで公開されている。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Behavior Generation with Latent Actions [40.20334908659482]
本稿ではベクトル量子化動作変換器(VQ-BeT)について述べる。
VQ-BeTは、多モード動作予測、条件生成、部分観察を扱う振る舞い生成のための汎用モデルである。
本稿では,VQ-BeTによる動作モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度の5倍の高速化を実証する。
論文 参考訳(メタデータ) (2024-03-05T18:19:29Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Multi-Timescale Modeling of Human Behavior [0.18199355648379031]
本稿では,行動情報を複数の時間スケールで処理し,将来の行動を予測するLSTMネットワークアーキテクチャを提案する。
我々は、仮想Minecraftベースのテストベッドでシミュレーションした都市検索・救助シナリオで収集したデータに基づいて、アーキテクチャを評価する。
論文 参考訳(メタデータ) (2022-11-16T15:58:57Z) - From Play to Policy: Conditional Behavior Generation from Uncurated
Robot Data [18.041329181385414]
Conditional Behavior Transformer (C-BeT) は、動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた手法である。
C-BeTは、プレイデータから学ぶための最先端の研究を平均45.7%改善している。
プレイデータから実世界のロボットで有用なタスク中心の振る舞いを学習できることを初めて実証する。
論文 参考訳(メタデータ) (2022-10-18T17:59:55Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。