Fugu-MT 論文翻訳(概要): Dynamic Execution Commitment of Vision-Language-Action Models

論文の概要: Dynamic Execution Commitment of Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2605.11567v2
Date: Mon, 18 May 2026 03:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:45.690001
Title: Dynamic Execution Commitment of Vision-Language-Action Models
Title（参考訳）: 視覚・言語・行動モデルの動的実行限界
Authors: Feng Chen, Xianghui Wang, Yuxuan Chen, Boying Li, Yefei He, Zeyu Zhang, Yicheng Wu,
Abstract要約: 本稿では,動的実行コミットメントを自己特定的プレフィックス検証問題として再編成する適応アクションアクセプタンス機構であるA3を紹介する。 A3はまず、グループサンプリングを介して行動の軌跡的なコンセンサススコアを計算し、次に代表ドラフトを選択し、下流検証を優先する。さまざまなVLAモデルとベンチマークの実験では、A3は手動の水平調整の必要性を排除し、実行と推論のスループットのトレードオフを優れたものにしている。
参考スコア（独自算出の注目度）: 21.647844049489535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models predominantly adopt action chunking, i.e., predicting and committing to a short horizon of consecutive low-level actions in a single forward pass, to amortize the inference cost of large-scale backbones and reduce per-step latency. However, committing these multi-step predictions to real-world execution requires balancing success rate against inference efficiency, a decision typically governed by fixed execution horizons tuned per task. Such heuristics ignore the state-dependent nature of predictive reliability, leading to brittle performance in dynamic or out-of-distribution settings. In this paper, we introduce A3, an Adaptive Action Acceptance mechanism that reframes dynamic execution commitment as a self-speculative prefix verification problem. A3 first computes a trajectory-wise consensus score of actions via group sampling, then selects a representative draft and prioritizes downstream verification. Specifically, it enforces: (1) consensus-ordered conditional invariance, which validates low-consensus actions by judging whether they remain consistent when re-decoded conditioned on high-consensus actions; and (2) prefix-closed sequential consistency, which guarantees physical rollout integrity by accepting only the longest continuous sequence of verified actions starting from the beginning. Consequently, the execution horizon emerges as the longest verifiable prefix satisfying both internal model logic and sequential execution constraints. Experiments across diverse VLA models and benchmarks demonstrate that A3 eliminates the need for manual horizon tuning while achieving a superior trade-off between execution robustness and inference throughput.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、主にアクションチャンキング、すなわち単一のフォワードパスにおける連続的な低レベルアクションの短期的な水平線予測とコミットを採用し、大規模なバックボーンの推論コストを減らし、ステップ毎のレイテンシを低減する。しかし、これらのマルチステップ予測を実世界の実行にコミットするには、成功率と推論効率のバランスをとる必要がある。このようなヒューリスティックスは、予測信頼性の状態依存性を無視し、動的またはアウト・オブ・ディストリビューション・セッティングにおける不安定なパフォーマンスをもたらす。本稿では,動的実行コミットメントを自己特定的プレフィックス検証問題として再編成する適応的行動受容機構であるA3を紹介する。 A3はまず、グループサンプリングを介して行動の軌跡的なコンセンサススコアを計算し、次に代表ドラフトを選択し、下流検証を優先する。具体的には,(1) コンセンサス順序の条件不変性,(2) コンセンサス動作で再復号されたときに整合性を保つかどうかを判断することで,低コンセンサス動作を検証すること,(2) プレフィックスクローズドシーケンスの整合性を保証すること,そして,まず最初に確認されたアクションの最長連続シーケンスのみを受け入れることで,物理的ロールアウト整合性を保証すること,などがあげられる。これにより、内部モデルロジックとシーケンシャルな実行制約の両方を満たす最も長い検証可能なプレフィックスとして実行地平線が現れる。さまざまなVLAモデルとベンチマークによる実験では、A3は手動の水平調整の必要性を排除し、実行の堅牢性と推論のスループットのトレードオフを優れたものにしている。

関連論文リスト

LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文参考訳（メタデータ） (2026-05-11T03:51:22Z)
World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文参考訳（メタデータ） (2026-04-02T12:48:36Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
VLA Knows Its Limits [27.43938890325202]
実行地平線の変化は、大幅なパフォーマンスの逸脱につながることを示す。本稿では,予測された各アクションチャンクの実行地平線を動的に推定する最初のテスト時間手法であるAutoHorizonを提案する。
論文参考訳（メタデータ） (2026-02-24T23:48:48Z)
OAT: Ordered Action Tokenization [44.20363344414952]
自己回帰ポリシーは、離散的な抽象化、トークンレベルの推論、柔軟な推論を可能にすることで、スケーラブルなロボット学習のための魅力的な基盤を提供する。既存のアプローチは、極端に長いトークン配列を生成する分析的な離散化法や、構造を持たない学習された潜在トークン化器に依存する。本研究では,アクショントークン化のための3つのデシラタ(高圧縮,全復調性,左から右への因果的に順序付けられたトークン空間)を特定し,オーダードアクショントークン化(OAT)を導入する。 OATはレジスタを持つ変圧器、有限スカラー量子を用いて、アクションチャンクを順序付けられたトークン列に識別する
論文参考訳（メタデータ） (2026-02-04T05:01:04Z)
Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。 CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文参考訳（メタデータ） (2025-11-26T09:49:48Z)
Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文参考訳（メタデータ） (2025-03-13T17:59:52Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。