論文の概要: VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model
- arxiv url: http://arxiv.org/abs/2605.01194v1
- Date: Sat, 02 May 2026 02:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.632993
- Title: VLA-ATTC: Adaptive Test-Time Compute for VLA Models with Relative Action Critic Model
- Title(参考訳): VLA-ATTC:相対的行動批判モデルを用いたVLAモデルの適応テスト時間計算
- Authors: Wenhao Li, Xiu Su, Dan Niu, Yichao Cao, Hongyan Xu, Zhe Qu, Lei Fan, Shan You, Chang Xu,
- Abstract要約: 適応型テスト時間計算でVLAモデルを実現するフレームワークである textbfVLA-ATTC' を導入する。
VLA-ATTCは、不確実性に基づく認知クラッチ'を用いて、反射的実行からTTC熟考フェーズへ動的に移行する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
- 参考スコア(独自算出の注目度): 54.35791816657227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities and generalization in embodied manipulation. However, their decision-making relies on a fast, instinctive process that lacks deliberation. This strategy often leads to suboptimal or catastrophic actions when facing complex or ambiguous scenarios that require greater consideration. In this paper, we introduce \textbf{VLA-ATTC}, a framework that endows VLA models with adaptive test-time compute (TTC). VLA-ATTC employs an uncertainty-based ``cognitive clutch'' to dynamically transition from reflexive execution to a TTC deliberation phase when necessary. During TTC phase, a novel \textbf{Relative Action Critic} (RAC) model identifies the optimal action from generated candidates via pairwise comparisons. This relative mechanism replaces unstable absolute value estimation, significantly simplifying the learning objective. Furthermore, we introduce an efficient sampling strategy to amortize computational costs and an automated data pipeline that curates preference pairs without manual annotation. On the LIBERO-LONG benchmark, VLA-ATTC reduces the failure rate of the SOTA model PI0.5 by over 50\%. We will open-source all the code and weights.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、具体的操作において顕著な能力と一般化を示した。
しかし、彼らの意思決定は、熟考に欠ける素早い本能的なプロセスに依存している。
この戦略は、しばしば、より考慮を要する複雑なまたは曖昧なシナリオに直面しているときに、最適または破滅的な行動を引き起こす。
本稿では,適応型テスト時間計算(TTC)を用いたVLAモデルを実現するフレームワークである,textbf{VLA-ATTC}を紹介する。
VLA-ATTCは不確実性に基づく「認知クラッチ」を用いて、必要に応じて反射的実行からTTC審議フェーズへ動的に移行する。
TTCフェーズにおいて、新しい textbf{Relative Action Critic} (RAC) モデルは、ペア比較によって生成された候補から最適なアクションを特定する。
この相対的なメカニズムは不安定な絶対値の推定を置き換え、学習目的を著しく単純化する。
さらに、計算コストを節約するための効率的なサンプリング戦略と、手動のアノテーションを使わずに好みのペアをキュレートする自動データパイプラインを導入する。
LIBERO-LONGベンチマークでは、VLA-ATTCはSOTAモデルPI0.5の故障率を50%以上削減する。
すべてのコードと重みをオープンソースにします。
関連論文リスト
- Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models [48.89466384943165]
VLA(Vision-Language-Action Model)は、逐次的な意思決定において優れた性能を発揮するが、微妙な環境変化に対して脆弱である。
検証自由なテスト時間適応フレームワークである遅延フィードバックを用いた摂動学習(PDF)を提案する。
論文 参考訳(メタデータ) (2026-04-20T11:25:51Z) - ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models [32.840734752367275]
Prototype-based Double-Check separation (ProtoDCS)はOSTTAの堅牢なフレームワークである。
csIDとcsOODを分離し、ビジョン言語モデルのcsIDデータへの安全かつ効率的な適応を可能にする。
ProtoDCSは、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-27T03:39:02Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation [21.23747444669735]
VLAモデル(AC2-VLA)に対するアクションコンテキスト対応適応計算を提案する。
AC2-VLAは、タイムステップ間の認識再利用、トークンプルーニング、統一メカニズム内のモデルコンポーネントの選択的な実行を適応的に行う。
ロボット操作ベンチマークの実験では、AC2-VLAはFLOPを29.4%まで減らし、最大1.79倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-27T14:10:39Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Click-through Rate Prediction with Auto-Quantized Contrastive Learning [46.585376453464114]
ユーザ行動が予測の利益を捉えるのに十分リッチかどうかを考察し、モデルを正規化するためのAQCL(Auto-Quantized Contrastive Learning)損失を提案する。
提案されたフレームワークは、異なるモデルアーキテクチャに非依存であり、エンドツーエンドでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-09-27T04:39:43Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。