論文の概要: MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose
- arxiv url: http://arxiv.org/abs/2602.19348v1
- Date: Sun, 22 Feb 2026 21:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.599829
- Title: MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose
- Title(参考訳): マルチディフセンス:物体形状と接触電位を条件とした拡散型多モードビズオ触覚画像生成
- Authors: Sirine Bhouri, Lan Wei, Jian-Qing Zheng, Dandan Zhang,
- Abstract要約: マルチディフセンス(MultiDiffSense)は、複数の視覚に基づく触覚センサのイメージを合成する統合拡散モデルである。
本手法では,CAD由来のポーズアライメント深度マップと,センサタイプと4-DoF接触ポーズを符号化する構造化プロンプトを用いた。
- 参考スコア(独自算出の注目度): 7.757408480351803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring aligned visuo-tactile datasets is slow and costly, requiring specialised hardware and large-scale data collection. Synthetic generation is promising, but prior methods are typically single-modality, limiting cross-modal learning. We present MultiDiffSense, a unified diffusion model that synthesises images for multiple vision-based tactile sensors (ViTac, TacTip, ViTacTip) within a single architecture. Our approach uses dual conditioning on CAD-derived, pose-aligned depth maps and structured prompts that encode sensor type and 4-DoF contact pose, enabling controllable, physically consistent multi-modal synthesis. Evaluating on 8 objects (5 seen, 3 novel) and unseen poses, MultiDiffSense outperforms a Pix2Pix cGAN baseline in SSIM by +36.3% (ViTac), +134.6% (ViTacTip), and +64.7% (TacTip). For downstream 3-DoF pose estimation, mixing 50% synthetic with 50% real halves the required real data while maintaining competitive performance. MultiDiffSense alleviates the data-collection bottleneck in tactile sensing and enables scalable, controllable multi-modal dataset generation for robotic applications.
- Abstract(参考訳): 整列型のVisuo-tactileデータセットの取得は遅くてコストがかかるため、特別なハードウェアと大規模なデータ収集が必要になる。
合成生成は有望だが、事前の手法は一般的に単一モダリティであり、クロスモーダル学習を制限する。
複数の視覚系触覚センサ(ViTac, TacTip, ViTacTip)の画像を単一のアーキテクチャで合成する統合拡散モデルであるMultiDiffSenseを提案する。
本手法では,CAD由来のポーズアライメント深度マップと,センサタイプと4-DoF接触ポーズを符号化する構造化プロンプトを用いて,制御可能で物理的に一貫したマルチモーダル合成を実現する。
8つのオブジェクト(5回目、3回目、3回目)と見えないポーズを評価し、MultiDiffSenseはSSIMのPix2Pix cGANベースラインを+36.3%(ViTac)、+134.6%(ViTacTip)、+64.7%(TacTip)で上回る。
下流3DoFのポーズ推定では、50%の合成データと50%の実データとを混合しながら、競争性能を維持している。
MultiDiffSenseは、触覚センシングにおけるデータ収集のボトルネックを緩和し、スケーラブルで制御可能なマルチモーダルデータセットをロボットアプリケーションに提供します。
関連論文リスト
- Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - MTGS: Multi-Traversal Gaussian Splatting [51.22657444433942]
マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。
任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。
その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
論文 参考訳(メタデータ) (2025-03-16T15:46:12Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。