Fugu-MT 論文翻訳(概要): Beyond World-Frame Action Heads: Motion-Centric Action Frames for Vision-Language-Action Models

論文の概要: Beyond World-Frame Action Heads: Motion-Centric Action Frames for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2605.11809v1
Date: Tue, 12 May 2026 09:03:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.739235
Title: Beyond World-Frame Action Heads: Motion-Centric Action Frames for Vision-Language-Action Models
Title（参考訳）: World-Frame Action Heads:Motion-Centric Action Frames for Vision-Language-Action Models
Authors: Huoren Yang, Jianchao Zhao, Hu Yusong, Qiguan Ou, Yuyang Gao, Wei Ke, Yuhang He, SongLin Dong, Zhiheng Ma, Yihong Gong,
Abstract要約: Vision-Language-Action(VLA)モデルは、強力なバックボーン、より広範な事前トレーニング、より大きなデモデータセットで急速に進歩している。動作中心アクションフレーム(MCF)とプロトタイプベースのアクションパラメータ化を備えた軽量アクションヘッドである textbfMCF-Proto を提案する。動作ヘッドに軽量な幾何学的・構成的構造を加えることで、VLAポリシーがロボット操作行動の組織化と一般化の方法を大幅に改善できる可能性が示唆された。
参考スコア（独自算出の注目度）: 52.17964309142613
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have advanced rapidly with stronger backbones, broader pre-training, and larger demonstration datasets, yet their action heads remain largely homogeneous: most directly predict action commands in a fixed world coordinate frame. We propose \textbf{MCF-Proto}, a lightweight action head that equips VLA policies with a Motion-Centric Action Frame (MCF) and a prototype-based action parameterization. At each step, the policy predicts a rotation $R_t \in SO(3)$, composes actions in the transformed local frame from a set of prototypes, and maps them back to the world frame for end-to-end training, using only standard demonstrations without auxiliary supervision. This simple design induces stable emergent structure. Without explicit directional labels, the learned local frames develop a stable geometric structure whose axes are strongly compatible with demonstrated end-effector motion. Meanwhile, actions in the learned representation become substantially more compact, with variation captured by fewer dominant directions and more regularly organized by shared prototypes. These structural properties translate into improved robustness, especially under geometric perturbations. Our results suggest that adding lightweight geometric and compositional structure to the action head can materially improve how VLA policies organize and generalize robotic manipulation behavior. An anonymized code repository is provided in the supplementary material.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、より強力なバックボーン、より広範な事前トレーニング、より大きなデモデータセットで急速に進歩しているが、そのアクションヘッドは概ね均一であり、最も直接的に、固定された世界座標フレーム内のアクションコマンドを予測する。本稿では,動作中心アクションフレーム(MCF)とプロトタイプベースのアクションパラメータ化を備えた軽量アクションヘッドである「textbf{MCF-Proto}」を提案する。各ステップにおいて、ポリシーはローテーション$R_t \in SO(3)$を予測し、変換されたローカルフレーム内のアクションをプロトタイプのセットから構成し、それらをエンド・ツー・エンドのトレーニングのために世界フレームにマップする。この単純な設計は安定した創発構造を誘導する。明示的な方向ラベルがなければ、学習された局所フレームは、軸が実証されたエンドエフェクタ運動と強く互換性のある安定な幾何学構造を発達させる。一方、学習された表現のアクションは、よりコンパクトになり、より支配的な方向によって捉えられ、より定期的に共有プロトタイプによって構成される。これらの構造的特性は、特に幾何学的摂動の下で、堅牢性の改善に変換される。動作ヘッドに軽量な幾何学的・構成的構造を加えることで、VLAポリシーがロボット操作行動の組織化と一般化の方法を大幅に改善できる可能性が示唆された。補充材料には匿名コードリポジトリが設けられている。

関連論文リスト

Lifting Embodied World Models for Planning and Control [59.09016913513998]
我々は、ハイレベルなアクションを低レベルなジョイントアクションのシーケンスにマッピングする軽量なポリシーを訓練する。我々は、この枠組みを人間的な実施のためにインスタンス化し、ハイレベルなアクション空間を2次元のウェイポイントの小さなセットとして定義する。昇降した世界モデルは,低レベルな関節空間で直接探索するよりもかなり優れていることを示す。
論文参考訳（メタデータ） (2026-04-28T23:59:19Z)
AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。 LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文参考訳（メタデータ） (2026-04-20T04:25:24Z)
D-Prism: Differentiable Primitives for Structured Dynamic Modeling [46.22518390136366]
D-Prismは、微分可能なプリミティブを動的ドメインに拡張することで、高忠実な構造化された動的モデリングを実現する最初のフレームワークである。プリミティブな動きを制御するための変形ネットワークを導入し、物体の動きを正確に一致させる。実験により,本手法は構造的動的モデリングに優れ,構造的幾何と高精度な運動追跡の両方を提供することを確認した。
論文参考訳（メタデータ） (2026-04-18T17:39:47Z)
Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation [43.5447478385855]
本稿では、生成的世界モデルを信頼性制御のための明示的な構造化プランナーに再構成するStructVLAを提案する。我々はこの手法を,個別のトークン語彙を統一した2段階の訓練パラダイムを用いて実装する。我々の実験では、StructVLAはSimplerEnv-WidowXで75.0%、LIBEROで94.8%という高い平均成功率を達成した。
論文参考訳（メタデータ） (2026-03-13T01:33:48Z)
Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文参考訳（メタデータ） (2026-03-04T11:38:12Z)
DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。 NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-12-12T10:39:10Z)
Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文参考訳（メタデータ） (2025-09-03T18:05:02Z)
PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning [5.247557449370603]
ProMoGenは、軌跡誘導とスパースアンカー動作制御を統合する新しいフレームワークである。 ProMoGenは、統合トレーニングプロセス内で、二重制御パラダイムと単一制御パラダイムの両方をサポートする。われわれのアプローチはパーソナライズされた動作と構造化されたガイダンスをシームレスに統合し、最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-04-23T13:51:42Z)
POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。 POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。 THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文参考訳（メタデータ） (2023-10-20T15:28:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。