Fugu-MT 論文翻訳(概要): BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

論文の概要: BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

arxiv url: http://arxiv.org/abs/2506.06072v2
Date: Tue, 10 Jun 2025 15:36:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 12:52:34.284876
Title: BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning
Title（参考訳）: BEAST:模倣学習のためのB-Splinesエンコードされたアクションシーケンスの効率的なトークン化
Authors: Hongyi Zhou, Weiran Liao, Xi Huang, Yucheng Tang, Fabian Otto, Xiaogang Jia, Xinkai Jiang, Simon Hilber, Ge Li, Qian Wang, Ömer Erdinç Yağmurlu, Nils Blank, Moritz Reuss, Rudolf Lioutikov,
Abstract要約: B-spline Encoded Action Sequence Tokenizer (BEAST)について述べる。 BEAST は B-splines を用いて、アクションシーケンスをコンパクトな離散トークンまたは連続トークンにエンコードする。 BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。
参考スコア（独自算出の注目度）: 20.58336395243977
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present the B-spline Encoded Action Sequence Tokenizer (BEAST), a novel action tokenizer that encodes action sequences into compact discrete or continuous tokens using B-splines. In contrast to existing action tokenizers based on vector quantization or byte pair encoding, BEAST requires no separate tokenizer training and consistently produces tokens of uniform length, enabling fast action sequence generation via parallel decoding. Leveraging our B-spline formulation, BEAST inherently ensures generating smooth trajectories without discontinuities between adjacent segments. We extensively evaluate BEAST by integrating it with three distinct model architectures: a Variational Autoencoder (VAE) with continuous tokens, a decoder-only Transformer with discrete tokens, and Florence-2, a pretrained Vision-Language Model with an encoder-decoder architecture, demonstrating BEAST's compatibility and scalability with large pretrained models. We evaluate BEAST across three established benchmarks consisting of 166 simulated tasks and on three distinct robot settings with a total of 8 real-world tasks. Experimental results demonstrate that BEAST (i) significantly reduces both training and inference computational costs, and (ii) consistently generates smooth, high-frequency control signals suitable for continuous control tasks while (iii) reliably achieves competitive task success rates compared to state-of-the-art methods.
Abstract（参考訳）: B-spline Encoded Action Sequence Tokenizer (BEAST) は、アクションシーケンスをB-splineを用いてコンパクトな離散トークンまたは連続トークンにエンコードする新しいアクショントークンである。ベクトル量子化やバイトペア符号化に基づく既存のアクショントークンライザとは対照的に、BEASTは個別のトークンライザのトレーニングを必要とせず、一様長のトークンを一貫して生成し、並列デコーディングによる高速なアクションシーケンス生成を可能にする。 B-スプラインの定式化を利用して、BEASTは本質的に、隣接セグメント間の不連続性を伴わずに滑らかな軌道を生成する。我々はBEASTを,連続トークン付き変分オートエンコーダ(VAE),離散トークン付き復号器専用トランスフォーマー,エンコーダ-デコーダアーキテクチャ付き事前学習型ビジョンランゲージモデルであるFlorence-2の3つの異なるモデルアーキテクチャに統合し,BEASTの互換性と拡張性を示す。 BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。 BEAST の実験結果 (i)トレーニングと推論の双方の計算コストを大幅に削減し、 (二)連続制御作業に適したスムーズで高周波な制御信号を一貫して生成する三最先端の方法と比較して、確実に競争的な作業成功率を達成すること。

論文の概要: BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning

関連論文リスト