論文の概要: Tabero: Learning Gentle Manipulation with Closed-Loop Force Feedback from Vision, Touch, and Language
- arxiv url: http://arxiv.org/abs/2605.27886v1
- Date: Wed, 27 May 2026 03:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.704684
- Title: Tabero: Learning Gentle Manipulation with Closed-Loop Force Feedback from Vision, Touch, and Language
- Title(参考訳): Tabero:視覚・触覚・言語からの閉ループ力フィードバックによるジェントル操作の学習
- Authors: Qiwei Wu, Rui Zhang, Xin Xiang, Tao Li, Weihua Zhang, Junjie Lai, Renjing Xu,
- Abstract要約: 優雅で言語条件のロボット操作のためのベンチマークとモデルスイートであるTaberoを紹介した。
本稿では,分離された力配置命令インタフェースを持つアーキテクチャであるTabero-VTLAを提案する。
本モデルでは,緩やかな指示の下で平均グリップ力を70%以上削減しながら高いタスク成功率を維持している。
- 参考スコア(独自算出の注目度): 21.997523369157093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile sensing is essential for robots to achieve human-like gentle manipulation. However, existing Vision-Language-Action (VLA) models struggle to exploit tactile feedback for gentle manipulation due to scarce aligned vision-tactile-language data and the lack of effective closed-loop force feedback mechanisms. To address these challenges, we introduce Tabero, a benchmark and model suite for gentle, language-conditioned robotic manipulation that demands fine-grained contact force perception. First, the Tabero benchmark addresses the scarcity of tactile data by presenting a data-efficient pipeline that repurposes open-source robot manipulation trajectories to generate diverse vision-tactile-language tasks, and establishes a multidimensional evaluation protocol that measures task success alongside physical interaction quality. Second, we propose Tabero-VTLA, an architecture with a decoupled force-position command interface; the resulting force-position commands are executed by a fixed hybrid controller to enable real-time, force-aware manipulation. Evaluated on Tabero, our model maintains high task success while reducing average grip force by over 70\% under gentle instructions, demonstrating its ability to modulate interaction forces based on multimodal experience. Our code is publicly available at https://github.com/NathanWu7/Tabero.
- Abstract(参考訳): ロボットにとって触覚は、人間のような穏やかな操作を実現するために不可欠である。
しかし、既存のVision-Language-Action(VLA)モデルは、視覚触覚言語データ不足と効果的な閉ループ力フィードバック機構の欠如により、触覚フィードバックを緩やかな操作に活用するのに苦労している。
これらの課題に対処するために、我々は、きめ細かい接触力の知覚を必要とする、優雅で言語条件のロボット操作のためのベンチマークとモデルスイートであるTaberoを紹介した。
まず、Taberoベンチマークは、オープンソースのロボット操作トラジェクトリを再利用して多様な視覚触覚言語タスクを生成するデータ効率の高いパイプラインを提示し、物理的相互作用の品質とともにタスクの成功を測定する多次元評価プロトコルを確立することで、触覚データの不足に対処する。
第2に,分離された力配置命令インタフェースを備えたアーキテクチャであるTabero-VTLAを提案する。
提案モデルでは,多モード経験に基づく相互作用力の調整能力を示すとともに,緩やかな指示の下で平均グリップ力の70%以上を減らし,タスク成功の維持を図っている。
私たちのコードはhttps://github.com/NathanWu7/Tabero.comで公開されています。
関連論文リスト
- TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation [27.000763540977506]
VLA(Vision-Language-Action)モデルは、ロボット操作において大きな優位性を示している。
本稿では,触覚モーダルを変換器のポリシーに組み込んだ微調整VLAモデルTacVLAを提案する。
本稿では,接触検出時にのみ触覚トークンを選択的に活性化する接触認識ゲーティング機構を提案する。
論文 参考訳(メタデータ) (2026-03-13T05:20:41Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Feel the Force: Contact-Driven Learning from Humans [52.36160086934298]
操作中のきめ細かい力の制御は、ロボット工学における中核的な課題である。
We present FeelTheForce, a robot learning system that model human tactile behavior to learn force-sensitive control。
提案手法は,5つの力覚的操作タスクで77%の成功率を達成した,スケーラブルな人間の監督において,堅牢な低レベル力制御を実現する。
論文 参考訳(メタデータ) (2025-06-02T17:57:52Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。