Fugu-MT 論文翻訳(概要): MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

論文の概要: MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

arxiv url: http://arxiv.org/abs/2602.19348v1
Date: Sun, 22 Feb 2026 21:31:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.599829
Title: MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose
Title（参考訳）: マルチディフセンス:物体形状と接触電位を条件とした拡散型多モードビズオ触覚画像生成
Authors: Sirine Bhouri, Lan Wei, Jian-Qing Zheng, Dandan Zhang,
Abstract要約: マルチディフセンス(MultiDiffSense)は、複数の視覚に基づく触覚センサのイメージを合成する統合拡散モデルである。本手法では,CAD由来のポーズアライメント深度マップと,センサタイプと4-DoF接触ポーズを符号化する構造化プロンプトを用いた。
参考スコア（独自算出の注目度）: 7.757408480351803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Acquiring aligned visuo-tactile datasets is slow and costly, requiring specialised hardware and large-scale data collection. Synthetic generation is promising, but prior methods are typically single-modality, limiting cross-modal learning. We present MultiDiffSense, a unified diffusion model that synthesises images for multiple vision-based tactile sensors (ViTac, TacTip, ViTacTip) within a single architecture. Our approach uses dual conditioning on CAD-derived, pose-aligned depth maps and structured prompts that encode sensor type and 4-DoF contact pose, enabling controllable, physically consistent multi-modal synthesis. Evaluating on 8 objects (5 seen, 3 novel) and unseen poses, MultiDiffSense outperforms a Pix2Pix cGAN baseline in SSIM by +36.3% (ViTac), +134.6% (ViTacTip), and +64.7% (TacTip). For downstream 3-DoF pose estimation, mixing 50% synthetic with 50% real halves the required real data while maintaining competitive performance. MultiDiffSense alleviates the data-collection bottleneck in tactile sensing and enables scalable, controllable multi-modal dataset generation for robotic applications.
Abstract（参考訳）: 整列型のVisuo-tactileデータセットの取得は遅くてコストがかかるため、特別なハードウェアと大規模なデータ収集が必要になる。合成生成は有望だが、事前の手法は一般的に単一モダリティであり、クロスモーダル学習を制限する。複数の視覚系触覚センサ(ViTac, TacTip, ViTacTip)の画像を単一のアーキテクチャで合成する統合拡散モデルであるMultiDiffSenseを提案する。本手法では,CAD由来のポーズアライメント深度マップと,センサタイプと4-DoF接触ポーズを符号化する構造化プロンプトを用いて,制御可能で物理的に一貫したマルチモーダル合成を実現する。 8つのオブジェクト(5回目、3回目、3回目)と見えないポーズを評価し、MultiDiffSenseはSSIMのPix2Pix cGANベースラインを+36.3%(ViTac)、+134.6%(ViTacTip)、+64.7%(TacTip)で上回る。下流3DoFのポーズ推定では、50%の合成データと50%の実データとを混合しながら、競争性能を維持している。 MultiDiffSenseは、触覚センシングにおけるデータ収集のボトルネックを緩和し、スケーラブルで制御可能なマルチモーダルデータセットをロボットアプリケーションに提供します。

関連論文リスト

Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文参考訳（メタデータ） (2025-05-08T15:28:09Z)
MTGS: Multi-Traversal Gaussian Splatting [51.22657444433942]
マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
論文参考訳（メタデータ） (2025-03-16T15:46:12Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文参考訳（メタデータ） (2023-12-17T05:27:31Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
General-Purpose Multimodal Transformer meets Remote Sensing Semantic Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文参考訳（メタデータ） (2023-07-07T04:58:34Z)
SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文参考訳（メタデータ） (2023-03-29T16:08:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。