論文の概要: TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control
- arxiv url: http://arxiv.org/abs/2601.14945v1
- Date: Wed, 21 Jan 2026 12:43:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.358903
- Title: TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control
- Title(参考訳): TIDAL:高周波VLA制御のための一時インターリーブ拡散と動作ループ
- Authors: Yuteng Sun, Haoran Wang, Ruofei Bai, Zhengguo Li, Jun Li, Meng Yee, Chuah, Wei Yun Yau,
- Abstract要約: 大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。
本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。
TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
- 参考スコア(独自算出の注目度): 15.534182843429043
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale Vision-Language-Action (VLA) models offer semantic generalization but suffer from high inference latency, limiting them to low-frequency batch-and-execute paradigm. This frequency mismatch creates an execution blind spot, causing failures in dynamic environments where targets move during the open-loop execution window. We propose TIDAL (Temporally Interleaved Diffusion and Action Loop), a hierarchical framework that decouples semantic reasoning from high-frequency actuation. TIDAL operates as a backbone-agnostic module for diffusion-based VLAs, using a dual-frequency architecture to redistribute the computational budget. Specifically, a low-frequency macro-intent loop caches semantic embeddings, while a high-frequency micro-control loop interleaves single-step flow integration with execution. This design enables approximately 9 Hz control updates on edge hardware (vs. approximately 2.4 Hz baselines) without increasing marginal overhead. To handle the resulting latency shift, we introduce a temporally misaligned training strategy where the policy learns predictive compensation using stale semantic intent alongside real-time proprioception. Additionally, we address the insensitivity of static vision encoders to velocity by incorporating a differential motion predictor. TIDAL is architectural, making it orthogonal to system-level optimizations. Experiments show a 2x performance gain over open-loop baselines in dynamic interception tasks. Despite a marginal regression in static success rates, our approach yields a 4x increase in feedback frequency and extends the effective horizon of semantic embeddings beyond the native action chunk size. Under non-paused inference protocols, TIDAL remains robust where standard baselines fail due to latency.
- Abstract(参考訳): 大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされ、低頻度のバッチ・アンド・実行パラダイムに制限される。
この周波数ミスマッチは実行盲点を生成し、オープンループ実行ウィンドウ中にターゲットが移動する動的環境で障害を引き起こす。
本稿では,TIDAL(Temporally Interleaved Diffusion and Action Loop)を提案する。
TIDALは拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作し、二周波アーキテクチャを用いて計算予算を再分配する。
具体的には、低周波マクロインテントループがセマンティック埋め込みをキャッシュし、高周波マイクロ制御ループが単一ステップフロー統合と実行をインターリーブする。
この設計により、エッジハードウェア(vs. 2.4Hzベースライン)の約9Hzの制御を、限界オーバーヘッドを増大させることなく行える。
結果として生じる遅延シフトに対処するため,政策は時間的に不整合なトレーニング戦略を導入し,静的な意味的意図とリアルタイムな先入観を併用して予測的補償を学習する。
さらに,静的視覚エンコーダの速度に対する感度の低下を,差動予測器を組み込むことで解決する。
TIDALはアーキテクチャであり、システムレベルの最適化と直交する。
実験では、動的インターセプションタスクにおいて、オープンループベースラインよりも2倍の性能向上を示す。
静的成功率の限界レグレッションにもかかわらず,本手法はフィードバック周波数を4倍に増加させ,ネイティブアクションチャンクサイズを超えてセマンティック埋め込みの効果的な地平を広げる。
未処理の推論プロトコルでは、標準のベースラインがレイテンシのために失敗する場合でも、TIDALは堅牢である。
関連論文リスト
- TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion [0.4078247440919472]
FLASH (Frequency-aware LiDAR Adaptive Super- resolution with Hierarchical fusion) は、二重ドメイン処理による制限を克服する新しいフレームワークである。
FLASHは、2つの重要なイノベーションを統合する: (i) 局所的な空間的注意とFFTによるグローバルな周波数領域分析を組み合わせ、細粒度の幾何と周期的な走査パターンの両方をログ線形複雑度で捉え、 (ii) 学習された位置特異的な特徴集約による従来のスキップ接続を置き換え、CBAMによる動的特徴選択のために強化する適応的マルチスケールフュージョン。
論文 参考訳(メタデータ) (2025-11-10T18:38:15Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation [10.67983913373955]
F2Netは、UHR画像を特殊な処理のために高周波数成分と低周波数成分に分解する周波数認識フレームワークである。
ハイブリッド周波数融合モジュールは、2つの新しい目的によって導かれるこれらの観測を統合する。
F2Netは、それぞれ80.22のmIoUと83.39の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-09T15:09:49Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [26.365397387678396]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。