論文の概要: Embedding Morphology into Transformers for Cross-Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2603.00182v1
- Date: Thu, 26 Feb 2026 21:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.087676
- Title: Embedding Morphology into Transformers for Cross-Robot Policy Learning
- Title(参考訳): ロボット間政策学習のためのトランスフォーマーへのモルフォロジーの埋め込み
- Authors: Kei Suzuki, Jing Liu, Ye Wang, Chiori Hori, Matthew Brand, Diego Romeres, Toshiaki Koike-Akino,
- Abstract要約: ロボット間政策学習は、ロボット学習において依然として中心的な課題である。
形態素を3つのメカニズムで注入するエンボディメント対応トランスフォーマーポリシーを提案する。
様々な実施形態において、この構造化された統合はバニラ pi0.5 VLA ベースラインの性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 24.85486808758998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-robot policy learning -- training a single policy to perform well across multiple embodiments -- remains a central challenge in robot learning. Transformer-based policies, such as vision-language-action (VLA) models, are typically embodiment-agnostic and must infer kinematic structure purely from observations, which can reduce robustness across embodiments and even limit performance within a single embodiment. We propose an embodiment-aware transformer policy that injects morphology via three mechanisms: (1) kinematic tokens that factorize actions across joints and compress time through per-joint temporal chunking; (2) a topology-aware attention bias that encodes kinematic topology as an inductive bias in self-attention, encouraging message passing along kinematic edges; and (3) joint-attribute conditioning that augments topology with per-joint descriptors to capture semantics beyond connectivity. Across a range of embodiments, this structured integration consistently improves performance over a vanilla pi0.5 VLA baseline, indicating improved robustness both within an embodiment and across embodiments.
- Abstract(参考訳): ロボット間のポリシー学習 — 複数の実施形態にまたがってうまく機能するように単一のポリシーをトレーニングする — は、ロボット学習における中心的な課題である。
視覚言語アクション(VLA)モデルのようなトランスフォーマーベースのポリシーは、通常はエンボディメント非依存であり、観測から純粋にキネマティック構造を推論する必要がある。
本研究では,(1)関節間の作用を分解し,時間圧縮を行うキネマティックトークン,(2)自意識の帰納的バイアスとしてキネマティックトポロジを符号化するトポロジ対応アテンションバイアス,(3)関節間記述子によるトポロジを付加し,接続性を超えたセマンティクスを捕捉するジョイント属性条件の3つのメカニズムを通じて,形態を注入するエンボディメント対応トランスフォーマーポリシーを提案する。
様々な実施形態において、この構造化された統合はバニラ pi0.5 VLA ベースラインの性能を一貫して改善し、実施形態内および実施形態間の堅牢性の向上を示す。
関連論文リスト
- Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer [55.982504915794514]
クロス・エボディメント・ポリシーは一般的に共有プライベート・アーキテクチャに依存している。
本報告では,MOTIFを効率よく数発のクロスボディーメントトランスファーに適用する。
我々はMOTIFが数発の転送シナリオにおいて強いベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-14T13:21:40Z) - ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States [9.721009445297716]
ArtGenは、正確な幾何学とコヒーレント・キネマティクスを備えた3Dオブジェクトを生成することができる条件付き拡散ベースのフレームワークである。
具体的には、ArtGenはグローバルキネマティック一貫性を明示的に実施するために、クロスステートなMonte Carloサンプリングを使用している。
合成3D-VAE潜伏剤は局所的言語的注意に先行して強化され、微細な幾何学的関係と大域的部分的関係を効果的に捉える。
論文 参考訳(メタデータ) (2025-12-13T17:00:03Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - AnyBody: A Benchmark Suite for Cross-Embodiment Manipulation [59.671764778486995]
ロボット工学におけるスケーラブルで伝達可能な学習を実現する上で、新しい実施形態に対する制御ポリシーの一般化は、依然として根本的な課題である。
本稿では,多種多様な形態素を横断する2つの基礎的タスクリーチとプッシュアラウンドに着目し,クロスボデーメント操作の学習のためのベンチマークを紹介する。
異なるRLポリシーが複数の形態から学習し、新しい政策に一般化する能力を評価する。
論文 参考訳(メタデータ) (2025-05-21T00:21:38Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。