論文の概要: The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption
- arxiv url: http://arxiv.org/abs/2602.19260v1
- Date: Sun, 22 Feb 2026 16:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.63359
- Title: The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption
- Title(参考訳): 価格が正しくない:エネルギー消費を著しく低減した構造化長方形マニピュレーションタスクにおけるVLAよりも優れたニューロシンボリック法
- Authors: Timothy Duggan, Pierrick Lorang, Hong Lu, Matthias Scheutz,
- Abstract要約: ビジョン・ランゲージ・アクション(VLA)モデルは、一般的なロボット政策への道筋として提案されている。
本稿では,超微調整オープンウェイトVLAモデル0とニューロシンボリックアーキテクチャとの頭と頭の比較を行った。
シミュレーションにおいて,ハノイの操作タスクの塔の構造的変種に対する両手法の評価を行った。
- 参考スコア(独自算出の注目度): 4.898459173551356
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently been proposed as a pathway toward generalist robotic policies capable of interpreting natural language and visual inputs to generate manipulation actions. However, their effectiveness and efficiency on structured, long-horizon manipulation tasks remain unclear. In this work, we present a head-to-head empirical comparison between a fine-tuned open-weight VLA model π0 and a neuro-symbolic architecture that combines PDDL-based symbolic planning with learned low-level control. We evaluate both approaches on structured variants of the Towers of Hanoi manipulation task in simulation while measuring both task performance and energy consumption during training and execution. On the 3-block task, the neuro-symbolic model achieves 95% success compared to 34% for the best-performing VLA. The neuro-symbolic model also generalizes to an unseen 4-block variant (78% success), whereas both VLAs fail to complete the task. During training, VLA fine-tuning consumes nearly two orders of magnitude more energy than the neuro-symbolic approach. These results highlight important trade-offs between end-to-end foundation-model approaches and structured reasoning architectures for long-horizon robotic manipulation, emphasizing the role of explicit symbolic structure in improving reliability, data efficiency, and energy efficiency. Code and models are available at https://price-is-not-right.github.io
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、自然言語と視覚入力を解釈して操作動作を生成する汎用的なロボットポリシーへの道筋として最近提案されている。
しかし, 構造的, 長期的操作作業における効果と効率性は未だ不明である。
本研究では, PDDLに基づく記号計画と学習低レベル制御を組み合わせた, 微調整オープンウェイトVLAモデルπ0とニューロシンボリックアーキテクチャの頭から頭への比較実験を行った。
本研究では,ハノイの作業塔の構造的変形について,訓練・実行時の作業性能とエネルギー消費の両面を計測しながら,シミュレーションで評価した。
3ブロックのタスクでは、ニューロシンボリックモデルが95%の成功を達成し、最高のパフォーマンスのVLAでは34%を達成した。
ニューロシンボリックモデルもまた、目に見えない4ブロックの変異(78%の成功)に一般化するが、両方のVLAはタスクを完了させることができない。
トレーニング中、VLAファインチューニングは神経-記号的アプローチよりも2桁近いエネルギーを消費する。
これらの結果は、信頼性、データ効率、エネルギー効率の向上における明示的な象徴的構造の役割を強調し、エンドツーエンドの基盤モデルアプローチと長距離ロボット操作のための構造化推論アーキテクチャとの間の重要なトレードオフを浮き彫りにしている。
コードとモデルはhttps://price-is-not-right.github.ioで公開されている。
関連論文リスト
- ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - Sample-Efficient Robot Skill Learning for Construction Tasks: Benchmarking Hierarchical Reinforcement Learning and Vision-Language-Action VLA Model [9.025728945376468]
本研究は,建設ロボットに新しいスキルを教えるための2つの主要なアプローチを評価する。
目標は、タスクパフォーマンスと、実際のジョブに各アプローチをデプロイするために必要な実践的労力の両方を理解することです。
論文 参考訳(メタデータ) (2025-12-16T02:56:13Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。