論文の概要: Behavior Generation with Latent Actions
- arxiv url: http://arxiv.org/abs/2403.03181v2
- Date: Fri, 28 Jun 2024 04:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:34:45.971876
- Title: Behavior Generation with Latent Actions
- Title(参考訳): 潜在行動による行動生成
- Authors: Seungjae Lee, Yibin Wang, Haritheja Etukuru, H. Jin Kim, Nur Muhammad Mahi Shafiullah, Lerrel Pinto,
- Abstract要約: 本稿ではベクトル量子化動作変換器(VQ-BeT)について述べる。
VQ-BeTは、多モード動作予測、条件生成、部分観察を扱う振る舞い生成のための汎用モデルである。
本稿では,VQ-BeTによる動作モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度の5倍の高速化を実証する。
- 参考スコア(独自算出の注目度): 40.20334908659482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions - continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT's improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet
- Abstract(参考訳): ラベル付きデータセットから複雑な振る舞いを生成的モデリングすることは、意思決定における長年の問題である。
言語や画像生成とは異なり、意思決定にはモデリングアクションが必要であり、その分布においてマルチモーダルな連続値ベクトルは、生成エラーが逐次予測に複雑になる可能性のある未処理のソースから引き出される可能性がある。
ビヘイビアトランスフォーマー(BeT)と呼ばれる最近のモデルのクラスでは、異なるモードをキャプチャするためにk-meansクラスタリングを使用してアクションを識別することで、この問題に対処している。
しかし、k-平均は高次元のアクション空間やロングシーケンスのスケールに苦慮し、勾配情報を欠いているため、BeTは長距離アクションのモデリングに苦しむ。
本研究では,マルチモーダルな行動予測,条件生成,部分的観察を行う行動生成モデルであるVector-Quantized Behavior Transformer (VQ-BeT)を提案する。
VQ-BeTは、階層ベクトル量子化モジュールで連続的なアクションをトークン化することでBeTを増強する。
シミュレーション操作、自律運転、ロボティクスを含む7つの環境において、VQ-BeTはBeTやDiffusion Policiesのような最先端のモデルを改善している。
重要なことは、VQ-BeTは、拡散ポリシよりも推論速度5倍の速度で、動作モードをキャプチャする能力を改善したことである。
ビデオとコードは https://sjlee.cc/vq-bet で見ることができる。
関連論文リスト
- Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Categorical Traffic Transformer: Interpretable and Diverse Behavior
Prediction with Tokenized Latent [17.14501241048221]
本稿では、連続的な軌道予測とトークン化されたカテゴリー予測の両方を出力する交通モデルであるカテゴリー交通変換器(CTT)を提案する。
CTTの最も顕著な特徴は、完全に解釈可能な潜伏空間であり、基底真理から潜伏変数を直接監督することができる。
その結果、CTTは、予測精度でSOTAを叩きながら意味のある異なる潜伏モードで条件付けられた多様な振る舞いを生成できる。
論文 参考訳(メタデータ) (2023-11-30T07:25:24Z) - Continuous-time convolutions model of event sequences [46.3471121117337]
イベントシーケンスは不均一でスパースであり、従来のモデルは不適当である。
我々は、時間とともに一様でない事象の発生を処理するために設計された効率的な畳み込みニューラルネットワークに基づくCOTICを提案する。
COTICは、次のイベント時間とタイプを予測する際に既存のモデルよりも優れており、最も近いライバルの3.714と比較して平均1.5のランクに達している。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Behavior Transformers: Cloning $k$ modes with one stone [15.037262986065267]
複数のモードでラベルなしのデモデータをモデル化する新しい手法であるBeT(Beby Transformer)を提案する。
さまざまなロボット操作と自律行動データセットを用いてBeTを実験的に評価した。
論文 参考訳(メタデータ) (2022-06-22T17:57:08Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。