論文の概要: SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.10518v1
- Date: Fri, 14 Nov 2025 01:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.906514
- Title: SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation
- Title(参考訳): SemanticVLA: 効率的なロボットマニピュレーションのためのセマンティックアライメントと強化
- Authors: Wei Li, Renshan Zhang, Rui Shao, Zhijian Fang, Kaiwen Zhou, Zhuotao Tian, Liqiang Nie,
- Abstract要約: 本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
- 参考スコア(独自算出の注目度): 65.6201974979119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have advanced in robotic manipulation, yet practical deployment remains hindered by two key limitations: 1) perceptual redundancy, where irrelevant visual inputs are processed inefficiently, and 2) superficial instruction-vision alignment, which hampers semantic grounding of actions. In this paper, we propose SemanticVLA, a novel VLA framework that performs Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation. Specifically: 1) To sparsify redundant perception while preserving semantic alignment, Semantic-guided Dual Visual Pruner (SD-Pruner) performs: Instruction-driven Pruner (ID-Pruner) extracts global action cues and local semantic anchors in SigLIP; Spatial-aggregation Pruner (SA-Pruner) compacts geometry-rich features into task-adaptive tokens in DINOv2. 2) To exploit sparsified features and integrate semantics with spatial geometry, Semantic-complementary Hierarchical Fuser (SH-Fuser) fuses dense patches and sparse tokens across SigLIP and DINOv2 for coherent representation. 3) To enhance the transformation from perception to action, Semantic-conditioned Action Coupler (SA-Coupler) replaces the conventional observation-to-DoF approach, yielding more efficient and interpretable behavior modeling for manipulation tasks. Extensive experiments on simulation and real-world tasks show that SemanticVLA sets a new SOTA in both performance and efficiency. SemanticVLA surpasses OpenVLA on LIBERO benchmark by 21.1% in success rate, while reducing training cost and inference latency by 3.0-fold and 2.7-fold.SemanticVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/SemanticVLA
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはロボット操作において進歩しているが、実用的展開には2つの重要な制限がある。
1)無関係な視覚入力が非効率に処理される知覚冗長性
2) 行動の意味的根拠を損なう表面的指示ビジョンアライメント。
本稿では,効率的なロボットマニピュレーションのためのセマンティック・アライズド・スパーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークであるSemanticVLAを提案する。
具体的には
1) 意味的アライメントを保ちながら、冗長な知覚を分散させるために、セマンティック誘導デュアル・ビジュアル・プルーナー(SD-Pruner)は、 命令駆動型プルーナー(ID-Pruner)は、SigLIPのグローバルアクションキューと局所セマンティックアンカーを抽出し、空間的アグリゲーション・プルーナー(SA-Pruner)は、DINOv2のタスク適応トークンに幾何学的に豊富な特徴をコンパクト化する。
2) 空間幾何学とセマンティック・コンプレメンタル・ヒエラルキー・フーザー (SH-Fuser) を融合させるため,SigLIP と DINOv2 にまたがる密集したパッチやスパーストークンを融合してコヒーレント表現を行う。
3) セマンティック・コンディショニング・アクション・カプラ(SA-Coupler)は, 従来の観察からDoFへのアプローチを代替し, 操作タスクのより効率的かつ解釈可能な動作モデリングを実現する。
シミュレーションと実世界のタスクに関する大規模な実験は、セマンティックVLAが性能と効率の両方で新しいSOTAを設定することを示している。
SemanticVLAは、OpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。SemanticVLAは、https://github.com/JiuTian-VL/SemanticVLAでオープンソース化され、公開されている。
関連論文リスト
- Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation [27.007611140797852]
既存の手法では、VLAモデル内の視覚的冗長性を低減し、推論速度を最適化する。
textbfAction-aware textbfDynamic textbfPruning (textbfADP)を提案する。
論文 参考訳(メタデータ) (2025-09-26T09:13:02Z) - CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation [14.311585896189506]
本稿では,タスク意味論と幾何学的特徴のギャップを埋めるために,Primitive-Aware Semantic Grounding (PASG)を提案する。
手動アノテーションに匹敵する性能を達成し,多様なシナリオにまたがる実用的なロボット操作タスクにおけるPASGの有効性を実証する。
論文 参考訳(メタデータ) (2025-08-08T03:23:33Z) - AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z) - OccLE: Label-Efficient 3D Semantic Occupancy Prediction [68.60633561134571]
OccLEはラベル効率のよい3Dセマンティック動作予測である。
イメージとLiDARを入力として取り、限られたvoxelアノテーションでハイパフォーマンスを維持する。
実験の結果,OccLE は Voxel アノテーションの10% しか使用せず,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。