論文の概要: STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization
- arxiv url: http://arxiv.org/abs/2506.03863v2
- Date: Wed, 11 Jun 2025 13:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.253108
- Title: STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization
- Title(参考訳): STAR:回転ベクトル量子化による異種ロボットスキル抽象化の学習
- Authors: Hao Li, Qi Lv, Rui Shao, Xiang Deng, Yinchuan Li, Jianye Hao, Liqiang Nie,
- Abstract要約: textbfSkill textbfTraining with textbfAugmented textbfRotation (textbfSTAR) は、スキル学習と構成の両方を進化させて複雑な振る舞いを完遂するフレームワークである。
- 参考スコア(独自算出の注目度): 87.77475595961154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transforming complex actions into discrete skill abstractions has demonstrated strong potential for robotic manipulation. Existing approaches mainly leverage latent variable models, e.g., VQ-VAE, to learn skill abstractions through learned vectors (codebooks), while they suffer from codebook collapse and modeling the causal relationship between learned skills. To address these limitations, we present \textbf{S}kill \textbf{T}raining with \textbf{A}ugmented \textbf{R}otation (\textbf{STAR}), a framework that advances both skill learning and composition to complete complex behaviors. Specifically, to prevent codebook collapse, we devise rotation-augmented residual skill quantization (RaRSQ). It encodes relative angles between encoder outputs into the gradient flow by rotation-based gradient mechanism. Points within the same skill code are forced to be either pushed apart or pulled closer together depending on gradient directions. Further, to capture the causal relationship between skills, we present causal skill transformer (CST) which explicitly models dependencies between skill representations through an autoregressive mechanism for coherent action generation. Extensive experiments demonstrate the superiority of STAR on both LIBERO benchmark and realworld tasks, with around 12\% improvement over the baselines.
- Abstract(参考訳): 複雑なアクションを個別のスキル抽象化に変換することは、ロボット操作の強力な可能性を示している。
既存のアプローチは主に潜伏変数モデル(例えばVQ-VAE)を利用して学習ベクトル(コードブック)を通してスキルの抽象化を学ぶが、コードブックの崩壊や学習スキル間の因果関係のモデル化に苦しむ。
これらの制限に対処するために、スキル学習と構成の両方を進化させ、複雑な振る舞いを完了させるフレームワークである \textbf{A}ugmented \textbf{R}otation (\textbf{STAR}) を用いた \textbf{S}kill \textbf{T}rainingを示す。
具体的には,コードブックの崩壊を防止するために,回転強化残留スキル量子化(RaRSQ)を提案する。
エンコーダ出力間の相対角度を回転ベース勾配機構により勾配流に符号化する。
同じスキルコード内のポイントは、勾配の方向に応じて、押し離されるか、より深く引かれるように強制されます。
さらに、スキル間の因果関係を捉えるために、コヒーレントアクション生成のための自己回帰機構を通じて、スキル表現間の依存関係を明示的にモデル化する因果スキル変換器(CST)を提案する。
LIBEROベンチマークと実世界のタスクの両方においてSTARが優れていることを示し、ベースラインよりも約12倍改善されている。
関連論文リスト
- Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Learning and Sequencing of Object-Centric Manipulation Skills for
Industrial Tasks [16.308562047398542]
本稿では,オブジェクト中心の隠れセミマルコフモデルを用いて,ロボットのスキルシーケンスを高速に符号化するアルゴリズムを提案する。
学習したスキルモデルは、多モーダルな(時間的および空間的な)軌道分布を符号化することができる。
本研究では,産業用組立作業用ロボットアーム7台について実演する。
論文 参考訳(メタデータ) (2020-08-24T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。