論文の概要: Behavior Generation with Latent Actions
- arxiv url: http://arxiv.org/abs/2403.03181v2
- Date: Fri, 28 Jun 2024 04:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:34:45.971876
- Title: Behavior Generation with Latent Actions
- Title(参考訳): 潜在行動による行動生成
- Authors: Seungjae Lee, Yibin Wang, Haritheja Etukuru, H. Jin Kim, Nur Muhammad Mahi Shafiullah, Lerrel Pinto,
- Abstract要約: 本稿ではベクトル量子化動作変換器(VQ-BeT)について述べる。
VQ-BeTは、多モード動作予測、条件生成、部分観察を扱う振る舞い生成のための汎用モデルである。
本稿では,VQ-BeTによる動作モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度の5倍の高速化を実証する。
- 参考スコア(独自算出の注目度): 40.20334908659482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions - continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT's improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet
- Abstract(参考訳): ラベル付きデータセットから複雑な振る舞いを生成的モデリングすることは、意思決定における長年の問題である。
言語や画像生成とは異なり、意思決定にはモデリングアクションが必要であり、その分布においてマルチモーダルな連続値ベクトルは、生成エラーが逐次予測に複雑になる可能性のある未処理のソースから引き出される可能性がある。
ビヘイビアトランスフォーマー(BeT)と呼ばれる最近のモデルのクラスでは、異なるモードをキャプチャするためにk-meansクラスタリングを使用してアクションを識別することで、この問題に対処している。
しかし、k-平均は高次元のアクション空間やロングシーケンスのスケールに苦慮し、勾配情報を欠いているため、BeTは長距離アクションのモデリングに苦しむ。
本研究では,マルチモーダルな行動予測,条件生成,部分的観察を行う行動生成モデルであるVector-Quantized Behavior Transformer (VQ-BeT)を提案する。
VQ-BeTは、階層ベクトル量子化モジュールで連続的なアクションをトークン化することでBeTを増強する。
シミュレーション操作、自律運転、ロボティクスを含む7つの環境において、VQ-BeTはBeTやDiffusion Policiesのような最先端のモデルを改善している。
重要なことは、VQ-BeTは、拡散ポリシよりも推論速度5倍の速度で、動作モードをキャプチャする能力を改善したことである。
ビデオとコードは https://sjlee.cc/vq-bet で見ることができる。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Categorical Traffic Transformer: Interpretable and Diverse Behavior
Prediction with Tokenized Latent [17.14501241048221]
本稿では、連続的な軌道予測とトークン化されたカテゴリー予測の両方を出力する交通モデルであるカテゴリー交通変換器(CTT)を提案する。
CTTの最も顕著な特徴は、完全に解釈可能な潜伏空間であり、基底真理から潜伏変数を直接監督することができる。
その結果、CTTは、予測精度でSOTAを叩きながら意味のある異なる潜伏モードで条件付けられた多様な振る舞いを生成できる。
論文 参考訳(メタデータ) (2023-11-30T07:25:24Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Behavior Transformers: Cloning $k$ modes with one stone [15.037262986065267]
複数のモードでラベルなしのデモデータをモデル化する新しい手法であるBeT(Beby Transformer)を提案する。
さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。
論文 参考訳(メタデータ) (2022-06-22T17:57:08Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。