論文の概要: Touch-R1: Reinforcing Touch Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2605.27154v1
- Date: Tue, 26 May 2026 15:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.369444
- Title: Touch-R1: Reinforcing Touch Reasoning in MLLMs
- Title(参考訳): Touch-R1:MLLMにおけるタッチ推論の強化
- Authors: Yingxin Lai, Yafei Zhou, Fucai Zhu, Siyu Zhu, Weihao Yuan,
- Abstract要約: 我々は,大規模なマルチモーダルデータセットであるTouchReason-1Mと,触覚知覚とコンフリクト解決を評価するための厳密なフレームワークであるTouchReason-Benchを紹介する。
Touch-R1は、オーディナル・アウェアの精度、クロスセンサーの物理的整合性、構造化フォーマット制御、入力側の触覚接地目的を組み合わせた触覚接地目的によって訓練される。
TouchReason-Benchでは、Touch-R1-7BがOctopi-13Bを18.4%、GPT-4oを24.7%上回っている。
- 参考スコア(独自算出の注目度): 7.657861449099524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While rule-based reinforcement learning has recently catalyzed explicit reasoning in multimodal models, tactile reasoning remains largely underexplored. Existing tactile-language models primarily rely on supervised or contrastive objectives, which limits their capacity to ground predictions in physical evidence or rectify misleading visual priors. Tactile reasoning introduces two modality-specific challenges: the ordinal nature of physical attributes (e.g., hardness, roughness) and the cross-sensor distribution shifts inherent in optical tactile hardware. In this work, we introduce TouchReason-1M, a large-scale multimodal dataset comprising over 1M synchronized tactile pairs across four distinct sensors, and TouchReason-Bench, a rigorous framework for evaluating tactile perception and visual-tactile conflict resolution. Building upon these, we propose Touch-R1, a tactile reasoning MLLM based on Qwen2.5-VL-7B. Touch-R1 is trained via a tactile-grounded GRPO objective that combines ordinal-aware accuracy, cross-sensor physical consistency, structured-format control, and an input-side tactile grounding objective. Specifically, the tactile-use reward assigns credit only when authentic tactile inputs yield superior correctness relative to counterfactual controls where the tactile stream is removed, shuffled, or noise-masked. On TouchReason-Bench, Touch-R1-7B outperforms Octopi-13B by 18.4\% and GPT-4o by 24.7\% on average. Its structured reasoning traces reveal emergent behaviors of probing, comparison, and revision, demonstrating that R1-style reasoning can be effectively grounded in physical contact.
- Abstract(参考訳): 規則に基づく強化学習は、最近、マルチモーダルモデルにおいて明示的な推論を触媒しているが、触覚推論はいまだほとんど探索されていない。
既存の触覚言語モデルは、主に監督的またはコントラスト的な目的に依存しており、その能力は物理的証拠の地上予測に制限される。
触覚推論は、物理的属性(例えば、硬さ、粗さ)の順序性と、光学的触覚ハードウェアに固有のクロスセンサー分布シフトの2つのモード固有の課題を導入している。
本研究では、4つの異なるセンサーで1M以上の同期された触覚ペアからなる大規模マルチモーダルデータセットであるTouchReason-1Mと、触覚知覚と視覚触覚衝突の解消を評価するための厳密なフレームワークであるTouchReason-Benchを紹介する。
そこで我々は,Qwen2.5-VL-7Bに基づく触覚推論MLLMであるTouch-R1を提案する。
Touch-R1は、オーディナル・アウェアの精度、クロスセンサーの物理的整合性、構造化フォーマット制御、入力側の触覚接地目的を組み合わせた触覚接地目的によって訓練される。
具体的には、実際の触覚入力が、触覚ストリームを除去、シャッフル、ノイズメイクした反ファクト制御に対して優れた正当性が得られる場合にのみ、触覚報酬がクレジットを割り当てる。
TouchReason-Benchでは、Touch-R1-7BがOctopi-13Bを18.4\%、GPT-4oを24.7\%上回る。
その構造的推論トレースは、探査、比較、修正の創発的な挙動を示し、R1スタイルの推論が物理的接触において効果的に基礎付けられることを示した。
関連論文リスト
- FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation [10.959531491338552]
本研究では,3次元触覚-言語-アクション(3D-TLA)アーキテクチャをフローマッチングポリシによって構築し,推論と制御を実現する。
提案したFG-Cモデルは95.9%の分類精度を示し、回帰誤差(MAE)を52.6%削減する。
この微細な表現に基づいて,フローマッチングポリシによって駆動される3次元触覚-言語-アクション(3D-TLA)アーキテクチャを構築し,推論と制御を実現する。
論文 参考訳(メタデータ) (2026-03-11T15:21:54Z) - Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation [82.63833405368159]
ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
論文 参考訳(メタデータ) (2026-02-14T16:05:08Z) - UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation [14.094740703476903]
本稿では,物理相互作用力の高次元触覚観測を基盤としたTaF-VLAについて紹介する。
TaF-VLAポリシは、最先端の触覚と視覚のみのベースラインを、コンタクトリッチなタスクで大幅に上回る。
論文 参考訳(メタデータ) (2026-01-28T07:34:41Z) - TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance [53.35296919674763]
TouchGuideは、低次元のアクション空間内でモダリティを融合させる、クロス政治的なビズオ触覚融合パラダイムである。
TouchGuideは、事前訓練された拡散またはフローマッチングビズモータポリシーをガイドする2つの段階で動作する。
高品質で費用対効果の高いデータによるTouchGuideトレーニングを容易にするために,データ収集システムであるTacUMIを導入する。
論文 参考訳(メタデータ) (2026-01-28T04:22:47Z) - Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z) - The Feeling of Success: Does Touch Sensing Help Predict Grasp Outcomes? [57.366931129764815]
両指にGelSight高解像度触覚センサを装着した2本指グリップを用いて,9000以上の握力試験を行った。
実験結果から,触覚を取り入れることで把握性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2017-10-16T05:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。