論文の概要: AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.07308v1
- Date: Fri, 08 May 2026 06:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.850933
- Title: AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models
- Title(参考訳): AT-VLA:ビジョン・ランゲージ・アクションモデルにおけるフィードバック反応向上のための適応的触覚注入
- Authors: Xiaoqi Li, Muhe Cai, Jiadong Xu, Juan Zhu, Hongwei Fan, Yan Shen, Guangrui Ren, Hao Dong,
- Abstract要約: VLA(Vision-Language-Action)モデルは、多様なタスクを実行するロボットエージェントの能力を大幅に向上させた。
近年の研究では、下流作業中に触覚信号を組み込むことが試みられ、事前学習したVLAが触覚フィードバックを解釈できるようになった。
本稿では,新しい適応触覚注入機構を導入するAT-VLA(Adaptive Tactile Vision-Language-Action)を提案する。
- 参考スコア(独自算出の注目度): 11.558382158969822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have significantly advanced the capabilities of robotic agents in executing diverse tasks; however, they still face challenges in contact-rich manipulation scenarios that require precise physical interactions. To address this limitation, recent studies have attempted to incorporate tactile signals during downstream tasks, enabling pretrained VLAs to interpret tactile feedback. Nevertheless, introducing new modalities during finetuning, which are rarely present in the pretrain stage, may disrupt the pretrained capabilities of VLAs. In addition, the inherently slow inference speed of VLAs hampers real-time responsiveness and limits the effective utilization of tactile feedback for action adjustment. To overcome these challenges, we propose Adaptive Tactile Vision-Language-Action (AT-VLA), which introduces a novel Adaptive Tactile Injection mechanism. This mechanism dynamically determines the appropriate timing and locations for tactile injection, incorporating only when it significantly contributes to action generation, thereby minimizing interference with pretrained representations. Furthermore, to enable rapid and accurate tactile responses, we propose a Tactile Reaction Dual-Stream mechanism, which decouples sensory processing into a slow visual-language stream for low-frequency perceptual reasoning and a fast tactile control stream for high-frequency physical interaction understanding, achieving real-time close-loop responses within 0.04 s. Real-world experiments thoroughly validate the effectiveness of AT-VLA in contact-rich manipulation tasks. The project page is available at: https://sites.google.com/view/at-vla.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは多様なタスクを実行するロボットエージェントの能力を著しく向上させたが、正確な物理的相互作用を必要とするコンタクトリッチな操作シナリオでは依然として課題に直面している。
この制限に対処するため、近年の研究では、下流作業中に触覚信号を導入し、事前訓練されたVLAが触覚フィードバックを解釈できるようにしている。
それでも、訓練前の段階ではほとんど存在しないファインタニング中に新しいモダリティを導入することで、VLAの事前訓練能力が損なわれる可能性がある。
さらに, VLAの応答性は本質的に遅いため, 触覚フィードバックの有効利用を制限している。
これらの課題を克服するために,新しい適応触覚注入機構を導入し,適応触覚提示機能(AT-VLA)を提案する。
このメカニズムは、触覚注入の適切なタイミングと場所を動的に決定し、アクション生成に顕著に寄与する場合にのみ組み込むことで、事前訓練された表現との干渉を最小限にする。
さらに,触覚応答を迅速かつ正確に行うために,触覚処理を低周波知覚推論のための低周波視覚ストリームと高速触覚制御ストリームに分離し,0.04秒以内のリアルタイム閉ループ応答を実現する触覚反応デュアルストリーム機構を提案する。
実世界の実験は、接触豊富な操作タスクにおけるAT-VLAの有効性を徹底的に検証した。
プロジェクトページは、https://sites.google.com/view/at-vla.com/で公開されている。
関連論文リスト
- Tube Diffusion Policy: Reactive Visual-Tactile Policy Learning for Contact-rich Manipulation [11.359539466233137]
Tube Diffusion Policy (TDP) は、チューブベースのフィードバック制御で模倣学習をブリッジする新しい視覚触覚ポリシー学習フレームワークである。
TDPは、名目アクションチャンクの周りに観測条件付きフィードバックフローを学習し、実行中に高速で適応的な反応を可能にするアクションチューブを形成する。
論文 参考訳(メタデータ) (2026-04-26T08:48:26Z) - Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models [48.57114740339529]
MoSSはモジュラー・センサ・ストリーム・フレームワークであり、ビジョン・ランゲージ・アクション・モデルを適用し、複数のセンサー信号を利用して行動予測を行う。
新たなモダリティを安定的に組み込むために,事前学習したVLAパラメータを早期に凍結する2段階のトレーニング手法を採用する。
接触相互作用のダイナミクスをよりよく捉えるために,将来的な物理的信号を予測する補助的なタスクを組み込む。
論文 参考訳(メタデータ) (2026-04-25T12:28:47Z) - HapticVLA: Contact-Rich Manipulation via Vision-Language-Action Model without Inference-Time Tactile Sensing [1.5861606459586157]
触覚を意識した操作はオフラインで学習でき、推論時に直接触覚フィードバックなしで展開できると我々は主張する。
本稿では,HapticVLAについて述べる。HapticVLAは,SA-RWFM (Safety-Aware Reward-Weighted Flow Matching) とTactile Distillation (TD) の2つの密結合段階で進行する。
論文 参考訳(メタデータ) (2026-03-16T13:24:58Z) - FAVLA: A Force-Adaptive Fast-Slow VLA model for Contact-Rich Robotic Manipulation [20.067295745725257]
フォース/トルクフィードバックは、コンタクトリッチな操作におけるビジョン・ランゲージ・アクション(VLA)モデルを大幅に改善することができる。
既存のほとんどのアプローチは、全てのモダリティを単一の動作周波数で融合させる。
高速接触認識制御から遅い知覚計画を切り離す力適応型高速スローVLAであるFAVLAを提案する。
論文 参考訳(メタデータ) (2026-02-27T03:33:10Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。