論文の概要: Behavior Generation with Latent Actions
- arxiv url: http://arxiv.org/abs/2403.03181v1
- Date: Tue, 5 Mar 2024 18:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:52:59.542009
- Title: Behavior Generation with Latent Actions
- Title(参考訳): 潜伏行動による行動生成
- Authors: Seungjae Lee and Yibin Wang and Haritheja Etukuru and H. Jin Kim and
Nur Muhammad Mahi Shafiullah and Lerrel Pinto
- Abstract要約: 本稿ではベクトル量子化動作変換器(VQ-BeT)について述べる。
VQ-BeTは、多モード動作予測、条件生成、部分観察を扱う振る舞い生成のための汎用モデルである。
本稿では,VQ-BeTによる動作モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度の5倍の高速化を実証する。
- 参考スコア(独自算出の注目度): 42.600104762214485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling of complex behaviors from labeled datasets has been a
longstanding problem in decision making. Unlike language or image generation,
decision making requires modeling actions - continuous-valued vectors that are
multimodal in their distribution, potentially drawn from uncurated sources,
where generation errors can compound in sequential prediction. A recent class
of models called Behavior Transformers (BeT) addresses this by discretizing
actions using k-means clustering to capture different modes. However, k-means
struggles to scale for high-dimensional action spaces or long sequences, and
lacks gradient information, and thus BeT suffers in modeling long-range
actions. In this work, we present Vector-Quantized Behavior Transformer
(VQ-BeT), a versatile model for behavior generation that handles multimodal
action prediction, conditional generation, and partial observations. VQ-BeT
augments BeT by tokenizing continuous actions with a hierarchical vector
quantization module. Across seven environments including simulated
manipulation, autonomous driving, and robotics, VQ-BeT improves on
state-of-the-art models such as BeT and Diffusion Policies. Importantly, we
demonstrate VQ-BeT's improved ability to capture behavior modes while
accelerating inference speed 5x over Diffusion Policies. Videos and code can be
found https://sjlee.cc/vq-bet
- Abstract(参考訳): ラベル付きデータセットから複雑な振る舞いを生成的モデリングすることは、意思決定における長年の問題である。
言語や画像生成とは異なり、意思決定にはモデリングアクションが必要であり、その分布においてマルチモーダルな連続値ベクトルは、生成エラーが逐次予測に複雑になる可能性のある未処理のソースから引き出される可能性がある。
ビヘイビアトランスフォーマー(bet)と呼ばれる最近のモデルのクラスでは、k-meansクラスタリングを使用して異なるモードをキャプチャすることで、アクションを識別することでこの問題に対処している。
しかし、k-平均は高次元のアクション空間や長いシーケンスのスケールに苦労し、勾配情報がないため、ベットは長距離アクションのモデリングに苦しむ。
本研究では,マルチモーダルな行動予測,条件生成,部分的な観察を行う行動生成モデルであるVector-Quantized Behavior Transformer (VQ-BeT)を提案する。
VQ-BeTは、階層ベクトル量子化モジュールで連続的なアクションをトークン化することでBeTを増強する。
シミュレーション操作、自動運転、ロボティクスを含む7つの環境において、VQ-BeTはBeTやDiffusion Policiesのような最先端のモデルを改善している。
重要となるのは,vq-betによる行動モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度5倍の高速化である。
ビデオとコードはhttps://sjlee.cc/vq-bet。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Poisson-Gamma Dynamical Systems with Non-Stationary Transition Dynamics [54.19709905569658]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - QuantAttack: Exploiting Dynamic Quantization to Attack Vision
Transformers [29.957089564635083]
我々は、量子化されたモデルの可用性を目標とする、新しい攻撃であるQuantAttackを紹介する。
オペレーティングシステムのリソースを無駄にするために設計された、慎重に構築された敵の例は、最悪のパフォーマンスを引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-03T18:31:19Z) - Categorical Traffic Transformer: Interpretable and Diverse Behavior
Prediction with Tokenized Latent [17.14501241048221]
本稿では、連続的な軌道予測とトークン化されたカテゴリー予測の両方を出力する交通モデルであるカテゴリー交通変換器(CTT)を提案する。
CTTの最も顕著な特徴は、完全に解釈可能な潜伏空間であり、基底真理から潜伏変数を直接監督することができる。
その結果、CTTは、予測精度でSOTAを叩きながら意味のある異なる潜伏モードで条件付けられた多様な振る舞いを生成できる。
論文 参考訳(メタデータ) (2023-11-30T07:25:24Z) - Continuous-time convolutions model of event sequences [53.36665135225617]
イベントシーケンスデータの巨大なサンプルは、eコマース、ヘルスケア、ファイナンスなど、さまざまなドメインで発生します。
利用可能なデータの量とクライアント毎のイベントシーケンスの長さは典型的には大きいため、長期的なモデリングが必要である。
時間内の事象の一様発生に適した連続畳み込みニューラルネットワークに基づくCOTIC法を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Behavior Transformers: Cloning $k$ modes with one stone [15.037262986065267]
複数のモードでラベルなしのデモデータをモデル化する新しい手法であるBeT(Beby Transformer)を提案する。
さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。
論文 参考訳(メタデータ) (2022-06-22T17:57:08Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。