論文の概要: From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.19131v1
- Date: Thu, 19 Mar 2026 16:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.278116
- Title: From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models
- Title(参考訳): 推論効率から身体効率へ:ビジョン・ランゲージ・アクションモデルにおける効率指標の再検討
- Authors: Zhuofan Li, Hongkun Yang, Zhenyang Chen, Yangxuan Chen, Yingyan, Lin, Chaojian Li,
- Abstract要約: VLA(Vision-Language-Action)モデルは最近、エンボディエージェントがますます複雑なタスクを実行できるようにした。
現在のVLA研究における「効率性」の概念は,ロボットプラットフォーム上での実際の性能を反映していない。
- 参考スコア(独自算出の注目度): 5.744219633980964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently enabled embodied agents to perform increasingly complex tasks by jointly reasoning over visual, linguistic, and motor modalities. However, we find that the prevailing notion of ``efficiency'' in current VLA research, characterized by parameters, FLOPs, or token decoding throughput, does not reflect actual performance on robotic platforms. In real-world execution, efficiency is determined by system-level embodied behaviors such as task completion time, trajectory smoothness, cumulative joint rotation, and motion energy. Through controlled studies across model compression, token sparsification, and action sequence compression, we make several observations that challenge common assumptions. (1) Methods that reduce computation under conventional metrics often increase end-to-end execution cost or degrade motion quality, despite maintaining task success rates. (2) System-level embodied efficiency metrics reveal performance differences in the learned action policies that remain hidden under conventional evaluations. (3) Common adaptation methods such as in-context prompting or supervised fine-tuning show only mild and metric-specific improvements in embodied efficiency. While these methods can reduce targeted embodied-efficiency metrics such as jerk or action rate, the resulting gains may come with trade-offs in other metrics, such as longer completion time. Taken together, our results suggest that conventional inference efficiency metrics can overlook important aspects of embodied execution. Incorporating embodied efficiency provides a more complete view of policy behavior and practical performance, enabling fairer and more comprehensive comparisons of VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは、視覚、言語、運動のモダリティを共同で推論することで、エンボディエージェントがより複雑なタスクを実行できるようになった。
しかし,現在のVLA研究では,パラメータやFLOP,トークン復号処理のスループットといった「効率」の概念がロボットプラットフォーム上での実際の性能を反映していないことが判明した。
実世界の実行においては、効率はタスク完了時間、軌道の滑らかさ、累積関節回転、運動エネルギーなどのシステムレベルの実施行動によって決定される。
モデル圧縮、トークンスペーシフィケーション、アクションシーケンス圧縮に関する制御された研究を通じて、一般的な仮定に挑戦するいくつかの観察を行う。
1)従来の測定値による計算の削減は,タスク成功率を維持しつつも,エンドツーエンドの実行コストや動作品質を低下させることが多い。
2) システムレベルの実施効率指標は,従来の評価では隠れたままの学習行動方針における性能差を明らかにした。
3) インコンテキスト・プロンプトや教師付き微調整などの一般的な適応手法は, 実施効率が軽度で, メートル法固有の改善しか示さない。
これらの手法は、ジャークやアクションレートのような標的の実施効率の指標を減らすことができるが、結果として得られる利益は、長い完了時間などの他の指標のトレードオフを伴う可能性がある。
この結果から,従来の推論効率の指標は具体的実行の重要な側面を覆い隠すことが示唆された。
実施効率を組み込むことは、より完全な政策行動と実践的なパフォーマンスのビューを提供し、VLAモデルのより公平で包括的な比較を可能にする。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Toward Efficient Agents: Memory, Tool learning, and Planning [96.93533945696156]
本稿では,レイテンシ,トークン,ステップなどのコストを考慮したメモリ,ツール学習,計画という,エージェントの3つのコアコンポーネントの効率性について検討する。
論文 参考訳(メタデータ) (2026-01-20T17:51:56Z) - EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI [8.90880897951322]
ジェネレーティブ・モデリングは、ビジュモータ・ポリシー・ラーニング(英語版)において顕著な将来性を示した。
EfficientFlowは、フローベースのポリシー学習を備えた効率的なエンボディAIのための統合されたフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T18:59:59Z) - ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models [14.202025149504715]
本稿では,既存のVLAモデルの動作予測機能を軽量モデルに転送するフレームワークであるActDistillを提案する。
我々は教師としてよく訓練されたVLAモデルを採用し、グラフ構造化カプセル化戦略を導入し、行動予測の階層的進化を明示的にモデル化する。
具現化されたベンチマークの実験では、ActDistillはフルスケールのVLAモデルと同等または優れた性能を達成し、計算を最大1.67倍のスピードアップで50%以上削減した。
論文 参考訳(メタデータ) (2025-11-22T14:44:03Z) - Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [24.905102026459428]
トランスフォーマーは、パラメータを更新せずに簡単に実演を条件付けることで、新しいタスクに適応し、目覚ましいコンテキスト内学習能力を示した。
トランスフォーマーが、原則付き学習アルゴリズムと比較して、いかに文脈内学習を最適に行うかは、いまだに不明である。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Building an Efficiency Pipeline: Commutativity and Cumulativeness of
Efficiency Operators for Transformers [68.55472265775514]
モデルに適用した演算子として効率性を考える。
本稿では,このアイデアの妥当性と,効率作用素の可換性と累積性について検討する。
論文 参考訳(メタデータ) (2022-07-31T18:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。