Fugu-MT 論文翻訳(概要): FAST: Efficient Action Tokenization for Vision-Language-Action Models

論文の概要: FAST: Efficient Action Tokenization for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2501.09747v1
Date: Thu, 16 Jan 2025 18:57:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.612992
Title: FAST: Efficient Action Tokenization for Vision-Language-Action Models
Title（参考訳）: FAST:ビジョン・ランゲージ・アクション・モデルのための効果的なアクション・トークン化
Authors: Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine,
Abstract要約: 離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
参考スコア（独自算出の注目度）: 98.15494168962563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive sequence models, such as Transformer-based vision-language action (VLA) policies, can be tremendously effective for capturing complex and generalizable robotic behaviors. However, such models require us to choose a tokenization of our continuous action signals, which determines how the discrete symbols predicted by the model map to continuous robot actions. We find that current approaches for robot action tokenization, based on simple per-dimension, per-timestep binning schemes, typically perform poorly when learning dexterous skills from high-frequency robot data. To address this challenge, we propose a new compression-based tokenization scheme for robot actions, based on the discrete cosine transform. Our tokenization approach, Frequency-space Action Sequence Tokenization (FAST), enables us to train autoregressive VLAs for highly dexterous and high-frequency tasks where standard discretization methods fail completely. Based on FAST, we release FAST+, a universal robot action tokenizer, trained on 1M real robot action trajectories. It can be used as a black-box tokenizer for a wide range of robot action sequences, with diverse action spaces and control frequencies. Finally, we show that, when combined with the pi0 VLA, our method can scale to training on 10k hours of robot data and match the performance of diffusion VLAs, while reducing training time by up to 5x.
Abstract（参考訳）: トランスフォーマーに基づく視覚言語行動(VLA)ポリシーのような自己回帰シーケンスモデルは、複雑で一般化可能なロボットの振る舞いを捉えるのに非常に効果的である。しかし、そのようなモデルでは、連続的な動作信号のトークン化を選択し、モデルによって予測される離散的なシンボルが連続的なロボット動作にどのようにマッピングされるかを決定する必要がある。ロボットのアクショントークン化に対する現在のアプローチは、単純な1次元、時間ごとのビンニング方式に基づいており、高頻度のロボットデータから巧妙なスキルを学ぶ場合、一般的には不十分である。この課題に対処するために、離散コサイン変換に基づくロボット動作のための新しい圧縮ベースのトークン化手法を提案する。我々のトークン化アプローチである周波数空間アクションシーケンストークン化(FAST)により、標準的な離散化手法が完全に失敗する高精度かつ高周波なタスクに対して、自己回帰VLAを訓練することができる。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。多様なアクション空間と制御周波数を備えた、幅広いロボットアクションシーケンスのブラックボックストークンライザとして使用できる。最後に、pi0 VLAと組み合わせることで、ロボットデータの10k時間でのトレーニングにスケールでき、拡散VLAの性能と一致し、最大5倍のトレーニング時間を短縮できることを示す。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
RobotDiffuse: Motion Planning for Redundant Manipulator based on Diffusion Model [13.110235244912474]
冗長マニピュレータは、キネマティック性能と汎用性の向上を提供する。これらのマニピュレータの動作計画は、DOFの増加と複雑な動的環境のために困難である。本稿では,冗長マニピュレータにおける運動計画のための拡散モデルに基づくロボットディフューズを提案する。
論文参考訳（メタデータ） (2024-12-27T07:34:54Z)
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T04:07:15Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。