Fugu-MT 論文翻訳(概要): Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

論文の概要: Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

arxiv url: http://arxiv.org/abs/2602.07845v1
Date: Sun, 08 Feb 2026 07:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.261296
Title: Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning
Title（参考訳）: リカレント深度VLA:潜時反復推論によるビジョン・ランゲージ・アクションモデルの入射テスト時間計算スケーリング
Authors: Yalcin Tur, Jalal Naghiyev, Haoquan Fang, Wei-Chuan Tsai, Jiafei Duan, Dieter Fox, Ranjay Krishna,
Abstract要約: リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。 RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
参考スコア（独自算出の注目度）: 38.78160379823724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/
Abstract（参考訳）: 現在のVision-Language-Action(VLA)モデルは、単純な調整と複雑なマルチステップ操作で同じ計算量を消費する、固定された計算深さに依存している。 Chain-of-Thought(CoT)プロンプトは可変計算を可能にするが、線形にメモリをスケールし、連続的なアクション空間に不適である。本稿では,明示的なトークン生成ではなく,遅延反復改善による計算適応性を実現するアーキテクチャであるRecurrent-Depth VLA(RD-VLA)を紹介する。 RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。このモデルはTBPTT (truncated backpropagation through time) を用いて訓練し, 改良過程を効率的に監督する。 RD-VLAは、遅延収束に基づく適応的な停止基準を用いて、動的に計算を割り当てる。単一項目推論で完全に失敗する(0パーセントの成功)タスクは、4回のイテレーションで90%以上成功し、単純なタスクは急速に飽和する。 RD-VLAは、ロボット工学におけるテストタイムコンピューティングへのスケーラブルなパスを提供し、トークンベースの推論を、一定のメモリ使用量を達成するために遅延推論に置き換え、以前の推論ベースのVLAモデルよりも最大80倍の推論スピードアップを実現する。プロジェクトページ: https://rd-vla.github.io/

関連論文リスト

RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。 RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文参考訳（メタデータ） (2026-02-05T06:41:11Z)
Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching [25.295588774254952]
我々は、学習可能なポリシー最適化問題として推論加速度を再構成する。本稿では,タスク認識による意思決定プロセスを直接Vision-Language-Actionモデルに統合する新しいフレームワークを提案する。提案手法は, 平均成功率を同時に向上させながら, 1.76倍のウォールクロック推定速度向上を実現する。
論文参考訳（メタデータ） (2026-01-31T12:12:51Z)
FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。 FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。 FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-12-04T16:21:38Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
TANTE: Time-Adaptive Operator Learning via Neural Taylor Expansion [9.639856161665962]
適応的なステップサイズで連続時間予測を生成する演算子学習フレームワークを提案する。 TANTEはテイラー展開を現在の状態に実行することで将来の状態を予測し、ニューラルネットワークは高次の時間微分と局所収束半径の両方を学ぶ。我々は,PDEベンチマークにおけるTANTEの有効性を実証し,固定ステップベースラインよりも精度と適応性に優れることを示した。
論文参考訳（メタデータ） (2025-02-12T17:09:13Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文参考訳（メタデータ） (2022-11-17T18:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。