論文の概要: FAVLA: A Force-Adaptive Fast-Slow VLA model for Contact-Rich Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.23648v1
- Date: Fri, 27 Feb 2026 03:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.755038
- Title: FAVLA: A Force-Adaptive Fast-Slow VLA model for Contact-Rich Robotic Manipulation
- Title(参考訳): FAVLA:接触リッチロボットマニピュレーションのための力適応型高速スローVLAモデル
- Authors: Yao Li, Peiyuan Tang, Wuyang Zhang, Chengyang Zhu, Yifan Duan, Weikai Shi, Xiaodong Zhang, Zijiang Yang, Jianmin Ji, Yanyong Zhang,
- Abstract要約: フォース/トルクフィードバックは、コンタクトリッチな操作におけるビジョン・ランゲージ・アクション(VLA)モデルを大幅に改善することができる。
既存のほとんどのアプローチは、全てのモダリティを単一の動作周波数で融合させる。
高速接触認識制御から遅い知覚計画を切り離す力適応型高速スローVLAであるFAVLAを提案する。
- 参考スコア(独自算出の注目度): 20.067295745725257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Force/torque feedback can substantially improve Vision-Language-Action (VLA) models on contact-rich manipulation, but most existing approaches fuse all modalities at a single operating frequency. This design ignores the mismatched sampling rates of real robot sensors, forcing downsampling of the high-frequency contact cues needed for reactive correction. Combined with common VLM-action-expert (AE) pipelines that execute action chunks largely open loop between expensive VLM updates, unified-frequency fusion often yields delayed responses to impacts, stick-slip, and force spikes. We propose FAVLA, a force-adaptive fast-slow VLA that decouples slow perception planning from fast contact-aware control. FAVLA runs a slow VLM at a fixed low frequency to encode modalities to produce latent representations and to predict near-future force variation. A fast AE then executes at a variable high frequency, conditioning on the latest force sequence data to generate reactive actions. We further introduce a force adapter that injects high-frequency force features into multiple AE layers, and adaptively schedules the AE's execution frequency based on the VLM's predicted force variation. Extensive experiments on contact-rich tasks demonstrate that FAVLA significantly outperforms baselines, achieving superior reactivity and success rates, especially with a smaller contact force during manipulation.
- Abstract(参考訳): フォース/トルクフィードバックは、コンタクトリッチな操作におけるビジョン・ランゲージ・アクション(VLA)モデルを大幅に改善するが、既存のほとんどのアプローチは、全てのモダリティを単一の動作周波数で融合させる。
この設計は、実際のロボットセンサーのミスマッチサンプリング率を無視し、反応補正に必要な高周波コンタクトキューのダウンサンプリングを強制する。
アクションチャンクを実行する一般的な VLM-action-expert (AE) パイプラインと組み合わせることで、高価な VLM 更新の間に大きなループが開かれ、統合周波数融合はしばしば衝撃、スティックスリップ、力スパイクに対する遅延応答をもたらす。
高速接触認識制御から遅い知覚計画を切り離す力適応型高速スローVLAであるFAVLAを提案する。
FAVLAは遅いVLMを一定の低周波で実行し、モダリティを符号化して遅延表現を生成し、近未来力の変動を予測する。
高速AEは可変高周波で実行され、最新のフォースシーケンスデータに条件付けされ、リアクティブアクションを生成する。
さらに、複数のAE層に高周波力特性を注入する力アダプタを導入し、VLMの予測力変化に基づいてAEの実行周波数を適応的にスケジュールする。
コンタクトリッチタスクに関する広範囲な実験により、FAVLAはベースラインを著しく上回り、特に操作時の接触力の小さいより優れた反応性と成功率を達成することが示された。
関連論文リスト
- Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward [11.066720921275648]
視覚言語アクション(VLA)モデルは、ロボット操作に非常に有望である。
厳格な産業用ロボットへの展開は、コンプライアンスと応答性の本質的にのトレードオフのため、依然として困難である。
本稿では、このトレードオフを解決するために、速度フィードフォワード項をVLAポリシーに統合することの重要性を示す。
論文 参考訳(メタデータ) (2026-03-17T07:50:00Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z) - HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers [12.373320641721344]
大型ビジョンランゲージ・アクション(VLA)モデルは、その印象的な一般化能力のためにロボット制御において有望であることが示されている。
数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと遅延推定につながる。
本稿では,柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。
論文 参考訳(メタデータ) (2024-09-12T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。