論文の概要: TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning
- arxiv url: http://arxiv.org/abs/2603.01700v1
- Date: Mon, 02 Mar 2026 10:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.822838
- Title: TacMamba: A Tactile History Compression Adapter Bridging Fast Reflexes and Slow VLA Reasoning
- Title(参考訳): TacMamba: 高速反射とスローVLA推論を組み込んだ触覚履歴圧縮アダプタ
- Authors: Zhenan Wang, Yanzhe Wang, Meixuan Ren, Peng Li, Yang Liu, Yifei Nie, Limin Long, Yun Ye, Xiaofeng Wang, Zhen Zhu, Huixu Dong,
- Abstract要約: 我々は、低周波視覚計画とフレキシブルな統合のための高周波触覚インタフェースであるTacMambaを紹介した。
TacMamba は100%の成功率を示し,視覚のみの pi_0.5 ベースラインをはるかに上回り,厳しいリアルタイム制約を厳密に満たしている。
離散カウントと暗黙の状態を切り替える実験により、TacMambaは100%の成功率を示し、ビジュアルのみのpi_0.5ベースラインをはるかに上回り、厳しいリアルタイム制約を厳密に満たしている。
- 参考スコア(独自算出の注目度): 16.21461083401249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visually ambiguous manipulation such as detecting button click tactile feedback is often the sole source of ground truth. However, fusing tactile data poses a significant challenge due to a spatiotemporal mismatch: tactile perception requires high-frequency processing with long-horizon memory (System 1), whereas visual policies operate at low control frequencies (System 2). Existing architectures struggle to bridge this gap: Transformers are computationally prohibitive for high-frequency loops (>100Hz), while LSTMs suffer from forgetting over extended interaction histories. In this paper, we introduce TacMamba, a hierarchical architecture that aligns high-bandwidth tactile reflexes with low-frequency visual planning. Our approach comprises three core contributions: (1) a custom high-frequency tactile interface designed for flexible integration; (2) a Mamba-based Tactile History Compressor that encodes continuous force history into a compact state with O(1) inference latency (0.45 ms), enabling plug-and-play fusion with VLA models without joint pre-training and (3) a Tactile-Guided Dual-Stage Training strategy that leverages temporal discrimination for self-supervised representation learning and phase-uniform sampling to mitigate data sparsity. Experiments on discrete counting and implicit state switching demonstrate that TacMamba achieves 100% success rates, significantly outperforming the visual-only pi_0.5 baseline, while strictly satisfying hard real-time constraints.
- Abstract(参考訳): ボタンクリックの触覚フィードバックを検出するような視覚的に曖昧な操作は、多くの場合、唯一の真実の源である。
触覚知覚には長軸メモリを用いた高周波処理が必要である(システム1)が、視覚的ポリシーは低制御周波数で動作する(システム2)。
トランスフォーマーは高速ループ(>100Hz)では計算が禁じられているが、LSTMは拡張された相互作用履歴を忘れることに悩まされている。
本稿では,高帯域幅の触覚反射と低周波の視覚計画とを協調する階層型アーキテクチャであるTacMambaを紹介する。
提案手法は, フレキシブルな統合のために設計されたカスタムな高周波触覚インタフェース, 2) O(1)推論遅延 (0.45 ms) を持つコンパクトな状態に連続的な力履歴を符号化する触覚履歴圧縮機, (3) 自己教師付き表現学習のための時間的差別と位相一様サンプリングを活用する触覚誘導デュアルステージトレーニング戦略の3つのコアコントリビューションから構成される。
離散カウントと暗黙の状態を切り替える実験により、TacMambaは100%の成功率を示し、ビジュアルのみのpi_0.5ベースラインをはるかに上回り、厳しいリアルタイム制約を厳密に満たしている。
関連論文リスト
- SkeFi: Cross-Modal Knowledge Transfer for Wireless Skeleton-Based Action Recognition [20.020503149009787]
既存のソリューションでは、RGBカメラを使用して骨格キーポイントをアノテートするが、そのパフォーマンスは暗い環境で低下し、プライバシーの懸念が高まる。
本稿では,これらの課題を軽減するために,非侵襲型無線センサ,すなわちLiDARとmmWaveについて検討する。
実験により、SkeFi は mmWave および LiDAR 上での最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-01-18T14:39:02Z) - Lightweight Test-Time Adaptation for EMG-Based Gesture Recognition [2.414036142474149]
本稿では,TCNバックボーンを用いたテスト時間適応(TTA)のための軽量フレームワークを提案する。
本稿では, リアルタイム統計アライメントのための因果適応バッチ正規化, (ii) ガウス混合モデル(GMM)アライメント, (iii) 迅速な数ショットキャリブレーションのためのメタラーニングの3つの展開対応戦略を紹介する。
評価の結果,経験再生更新は限られたデータの下では優れた安定性を示し,メタラーニングは1ショットと2ショットのレギュレーションにおいて競争性能を達成していることがわかった。
論文 参考訳(メタデータ) (2026-01-07T18:48:31Z) - Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion [0.4078247440919472]
FLASH (Frequency-aware LiDAR Adaptive Super- resolution with Hierarchical fusion) は、二重ドメイン処理による制限を克服する新しいフレームワークである。
FLASHは、2つの重要なイノベーションを統合する: (i) 局所的な空間的注意とFFTによるグローバルな周波数領域分析を組み合わせ、細粒度の幾何と周期的な走査パターンの両方をログ線形複雑度で捉え、 (ii) 学習された位置特異的な特徴集約による従来のスキップ接続を置き換え、CBAMによる動的特徴選択のために強化する適応的マルチスケールフュージョン。
論文 参考訳(メタデータ) (2025-11-10T18:38:15Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation [10.843503146808839]
HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
論文 参考訳(メタデータ) (2025-03-10T04:01:48Z) - Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation [58.95799126311524]
人間は視覚と触覚を使って、外的変化に対する迅速な応答や接触力の適応制御のような非常に反応性の高い能力で、コンタクトリッチなタスクを達成できる。
既存の視覚模倣学習アプローチは、複雑な振る舞いをモデル化するためにアクションチャンキングに依存している。
本稿では,Augmented Realityを通じてリアルタイム触覚フィードバックを提供する,低コスト遠隔操作システムであるTactARを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。