論文の概要: FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.10871v1
- Date: Wed, 11 Mar 2026 15:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.688517
- Title: FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation
- Title(参考訳): FG-CLTP:ロボットマニピュレーションのための微粒コントラスト言語触覚訓練
- Authors: Wenxuan Ma, Chaofan Zhang, Yinghao Cai, Guocai Yao, Shaowei Cui, Shuo Wang,
- Abstract要約: 本研究では,3次元触覚-言語-アクション(3D-TLA)アーキテクチャをフローマッチングポリシによって構築し,推論と制御を実現する。
提案したFG-Cモデルは95.9%の分類精度を示し、回帰誤差(MAE)を52.6%削減する。
この微細な表現に基づいて,フローマッチングポリシによって駆動される3次元触覚-言語-アクション(3D-TLA)アーキテクチャを構築し,推論と制御を実現する。
- 参考スコア(独自算出の注目度): 10.959531491338552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in integrating tactile sensing into vision-language-action (VLA) models have demonstrated transformative potential for robotic perception. However, existing tactile representations predominantly rely on qualitative descriptors (e.g., texture), neglecting quantitative contact states such as force magnitude, contact geometry, and principal axis orientation, which are indispensable for fine-grained manipulation. To bridge this gap, we propose FG-CLTP, a fine-grained contrastive language tactile pretraining framework. We first introduce a novel dataset comprising over 100k tactile 3D point cloud-language pairs that explicitly capture multidimensional contact states from the sensor's perspective. We then implement a discretized numerical tokenization mechanism to achieve quantitative-semantic alignment, effectively injecting explicit physical metrics into the multimodal feature space. The proposed FG-CLTP model yields a 95.9% classification accuracy and reduces the regression error (MAE) by 52.6% compared to state-of-the-art methods. Furthermore, the integration of 3D point cloud representations establishes a sensor-agnostic foundation with a minimal sim-to-real gap of 3.5%. Building upon this fine-grained representation, we develop a 3D tactile-language-action (3D-TLA) architecture driven by a flow matching policy to enable multimodal reasoning and control. Extensive experiments demonstrate that our framework significantly outperforms strong baselines in contact-rich manipulation tasks, providing a robust and generalizable foundation for tactile-language-action models.
- Abstract(参考訳): 触覚を視覚言語反応(VLA)モデルに統合する最近の進歩は、ロボット知覚の変容の可能性を示している。
しかし、既存の触覚表現は主に定性的記述子(例えばテクスチャ)に依存しており、微粒な操作には不可欠である力の大きさ、接触幾何学、主軸方向などの量的接触状態を無視している。
このギャップを埋めるために,FG-CLTPを提案する。
まず,100k以上の触覚点を持つクラウド言語ペアからなる新しいデータセットを紹介し,センサの観点から多次元接触状態を明示的に把握する。
次に,量列アライメントを実現するために,離散化された数値トークン化機構を実装し,マルチモーダル特徴空間に明示的な物理指標を効果的に注入する。
提案したFG-CLTPモデルは95.9%の分類精度を示し、最先端の手法と比較して回帰誤差(MAE)を52.6%低減する。
さらに、3Dポイントのクラウド表現の統合は、センサーに依存しない基礎を確立し、最小のsim-to-realギャップは3.5%である。
この微細な表現に基づいて,フローマッチングポリシによって駆動される3次元触覚-言語-アクション(3D-TLA)アーキテクチャを開発し,マルチモーダル推論と制御を実現する。
大規模な実験により,我々のフレームワークは,接触豊富な操作タスクにおいて,強いベースラインを著しく上回り,触覚-言語-アクションモデルに対する堅牢で一般化可能な基盤を提供することが示された。
関連論文リスト
- SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning [54.232148007248874]
現在の手話生産(SLP)フレームワークは、まさにトレードオフに直面している。
本研究では,スペースを利用した新たなトレーニングパラダイムを提案し,人間の署名の真の基盤となる分布を捉える。
これらの離散的なアンカーから高密度な動きを予測することにより、流体の調音を確実にしながら、回帰から平均への移動を緩和する。
論文 参考訳(メタデータ) (2026-03-11T06:02:36Z) - Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model [18.526821056010384]
視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
伝統的な強化学習アプローチは、主に相対的なランクに基づいており、しばしば深刻な報酬の分散と勾配不安定に悩まされる。
本稿では,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPOフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-12T16:26:42Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - NeuroVoxel-LM: Language-Aligned 3D Perception via Dynamic Voxelization and Meta-Embedding [8.131547418489534]
我々は,NeuroVoxel-LMを提案する。NeuroVoxel-LMは,Neural Radiance Fields(NeRF)と動的解像度のボキセル化と軽量メタ埋め込みを統合した新しいフレームワークである。
具体的には、幾何学的および構造的複雑さに基づいてボクセルを適応的に調整する動的分解能多スケールボクセル化(DR-MSV)技術を導入する。
また,注目度に基づく重み付けと残差融合による意味表現を強化する軽量メタ埋め込み(TAP-LME)機構を提案する。
論文 参考訳(メタデータ) (2025-07-27T03:11:08Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying [25.32838673665989]
オープン語彙の3Dシーン理解は、自然言語による操作など、ロボット工学の応用にとって不可欠である。
既存の3Dガウススプラッティングの問合せ方法は、矛盾しない2Dマスクの監視にしばしば苦労する。
本稿では,セグメンテーションマスク上でのトラッキングを行い,意味的に一貫した基盤構造を確立するための新しいポイントレベルのクエリフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T17:59:05Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。