論文の概要: TextToucher: Fine-Grained Text-to-Touch Generation
- arxiv url: http://arxiv.org/abs/2409.05427v1
- Date: Mon, 9 Sep 2024 08:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:20:29.162943
- Title: TextToucher: Fine-Grained Text-to-Touch Generation
- Title(参考訳): TextToucher: 細粒のテキスト・ツー・タッチ・ジェネレーション
- Authors: Jiahang Tu, Hao Fu, Fengyu Yang, Hanbin Zhao, Chao Zhang, Hui Qian,
- Abstract要約: 触覚画像の特徴を物体レベル(触覚テクスチャ,触覚形状)とセンサレベル(ゲルの状態)の2つの粒度から詳細に分析する。
高品質な触覚サンプルを生成するための細粒度テキストタッチ生成法(TextToucher)を提案する。
- 参考スコア(独自算出の注目度): 20.49021594738016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tactile sensation plays a crucial role in the development of multi-modal large models and embodied intelligence. To collect tactile data with minimal cost as possible, a series of studies have attempted to generate tactile images by vision-to-touch image translation. However, compared to text modality, visual modality-driven tactile generation cannot accurately depict human tactile sensation. In this work, we analyze the characteristics of tactile images in detail from two granularities: object-level (tactile texture, tactile shape), and sensor-level (gel status). We model these granularities of information through text descriptions and propose a fine-grained Text-to-Touch generation method (TextToucher) to generate high-quality tactile samples. Specifically, we introduce a multimodal large language model to build the text sentences about object-level tactile information and employ a set of learnable text prompts to represent the sensor-level tactile information. To better guide the tactile generation process with the built text information, we fuse the dual grains of text information and explore various dual-grain text conditioning methods within the diffusion transformer architecture. Furthermore, we propose a Contrastive Text-Touch Pre-training (CTTP) metric to precisely evaluate the quality of text-driven generated tactile data. Extensive experiments demonstrate the superiority of our TextToucher method. The source codes will be available at \url{https://github.com/TtuHamg/TextToucher}.
- Abstract(参考訳): 触覚は多モードの大型モデルや具現化インテリジェンスの開発において重要な役割を担っている。
触覚データを最小限のコストで収集するために,視覚と触覚の変換による触覚画像の生成を試みた。
しかし、テキストモダリティと比較すると、視覚的モダリティ駆動の触覚生成は人間の触覚を正確に表現することはできない。
本研究では,触覚画像の特徴を,物体レベル(触覚テクスチャ,触覚形状)とセンサレベル(ゲル状態)の2つの粒度から詳細に分析する。
テキスト記述によるこれらの情報の粒度をモデル化し、高品質な触覚サンプルを生成するための細粒度テキストタッチ生成法(TextToucher)を提案する。
具体的には、オブジェクトレベルの触覚情報に関する文章を構築するためのマルチモーダルな大規模言語モデルを導入し、学習可能なテキストプロンプトを用いて、センサレベルの触覚情報を表現する。
テクスト情報を組み込んだ触覚生成プロセスの指針として,テキスト情報の二重粒を融合させ,拡散トランスフォーマアーキテクチャ内での多結晶テキストコンディショニング手法を探索する。
さらに,テキスト駆動型触覚データの品質を正確に評価するために,CTTP(Contrastive Text-Touch Pre-training)メトリクスを提案する。
大規模な実験は、TextToucherメソッドの優位性を示します。
ソースコードは \url{https://github.com/TtuHamg/TextToucher} で入手できる。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - A Touch, Vision, and Language Dataset for Multimodal Alignment [30.616909132040764]
この研究は、GPT-4V (90%) の人による注釈付き英語ラベル(10%)とテキスト擬似ラベル(90%)による、44K in-the-wild Vision-touchペアの新しいデータセットを導入している。
このデータセットを用いて、オープン語彙分類のための視覚言語対応触覚エンコーダと、訓練されたエンコーダを用いたテキスト生成のためのタッチビジョン言語モデルをトレーニングする。
その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T18:47:56Z) - Binding Touch to Everything: Learning Unified Multimodal Tactile
Representations [29.76008953177392]
複数モードに接続された視覚ベースのタッチセンサの統一モデルであるUniTouchを紹介する。
我々は、すでに様々なモダリティに関連付けられている事前訓練済みのイメージ埋め込みに、UniTouchの埋め込みを合わせることで、これを実現する。
さらに、学習可能なセンサ固有のトークンを提案し、不均一な触覚センサの集合からモデルを学習できるようにする。
論文 参考訳(メタデータ) (2024-01-31T18:59:57Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Attention for Robot Touch: Tactile Saliency Prediction for Robust
Sim-to-Real Tactile Control [12.302685367517718]
高解像度触覚センサーは、接触に富むロボットタスクにおける局所的な接触に関する情報を正確に提供することができる。
我々は,神経科学の人間のタッチアテンション機構にヒントを得た,ロボットタッチのためのテクスティタクティル・サリエンシ(textittactile saliency)という新しい概念を研究した。
論文 参考訳(メタデータ) (2023-07-26T21:19:45Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Tactile-ViewGCN: Learning Shape Descriptor from Tactile Data using Graph
Convolutional Network [0.4189643331553922]
触覚データを用いたオブジェクト分類に関するこれまでの研究を改善することに焦点を当てている。
本稿では,触覚的特徴を階層的に集約する新しい手法Tactile-ViewGCNを提案する。
提案手法は,STAGデータセットにおいて81.82%の精度で過去の手法より優れていた。
論文 参考訳(メタデータ) (2022-03-12T05:58:21Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。