論文の概要: HapticLDM: A Diffusion Model for Text-to-Vibrotactile Generation
- arxiv url: http://arxiv.org/abs/2605.09971v1
- Date: Mon, 11 May 2026 04:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.521348
- Title: HapticLDM: A Diffusion Model for Text-to-Vibrotactile Generation
- Title(参考訳): HapticLDM:テキスト・バイブロタクティル生成のための拡散モデル
- Authors: Jiahao Xiong, Fei Wang, Anran Xu, Pinzhi Huang, Tao Wen, Lijia Pan, Cai Chen,
- Abstract要約: HapticLDMはLDM(Latent Diffusion Models)上に構築された最初のテキスト・バイブレーション生成モデルである
微細な動的モデリングのための高品質なデータペアをキュレートするためのテキスト処理戦略を導入する。
我々は,最先端のベースラインに対するA/Bテストや,30名の参加者を対象としたユーザスタディなど,幅広い評価を行っている。
- 参考スコア(独自算出の注目度): 6.067124292824705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-vibration generation converts natural language into haptic feedback, enabling vibration-effect designers to get scenarios-fitted vibrations more efficiently, which shows great potentials in application fields such as metaverse, games, and film to enrich the user experience in interactive scenarios. The core challenge in this field is how to generate accurate, consistent, and complete vibrations according to textual semantics. Very recent autoregressive (AR) approaches (e.g., HapticGen) exhibit limited capacity in fully capturing global dependencies, owing to the inherent sequential nature of their modeling and prevailing data constraints. In this paper, we proposed HapticLDM, the first text-to-vibration generative model built upon Latent Diffusion Models (LDMs). Firstly, with respect to the data, we introduced a text-processing strategy that emphasizes dynamic characteristics to curate high-quality data pairs for fine-grained dynamic modeling. Secondly, HapticLDM incorporates a global denoising mechanism that regulates coherent and stable variations in the temporal envelope. Furthermore, we conduct extensive evaluations, including A/B testing against the state-of-the-art baseline and a user study involving 30 participants. The results demonstrate that our model enhances realism and semantic alignment. Qualitative feedback further indicates that HapticLDM simplifies the haptic design workflow while generating diverse, subtle, and physically precise vibrations.
- Abstract(参考訳): テキスト・ツー・バイブレーション・ジェネレーションは、自然言語を触覚フィードバックに変換することで、振動効果設計者がシナリオに適合した振動をより効率的に得ることを可能にし、メタバース、ゲーム、フィルムといったアプリケーション分野において大きなポテンシャルを示し、対話的なシナリオにおけるユーザエクスペリエンスを強化する。
この分野における中核的な課題は、テキストのセマンティクスに従って正確で一貫性があり、完全な振動を生成する方法である。
非常に最近の自己回帰的(AR)アプローチ(例:HapticGen)は、モデリングの本質的なシーケンシャルな性質とデータ制約により、グローバルな依存関係を完全にキャプチャする能力に限界があります。
本稿では,Latent Diffusion Models (LDM) を用いた最初のテキスト・バイブレーション生成モデルであるHapticLDMを提案する。
まず,本論文では,高精細な動的モデリングのための高精細なデータペアをキュレートするために,動的特性を強調するテキスト処理戦略を導入する。
第2に、HapticLDMは時間エンベロープのコヒーレントかつ安定な変動を調節するグローバルデノナイジング機構を組み込んでいる。
さらに,最先端のベースラインに対するA/Bテストや,30名の参加者を対象としたユーザスタディなど,幅広い評価を行った。
その結果,本モデルではリアリズムとセマンティックアライメントが向上することが示された。
定性的フィードバックは、HapticLDMが多様な微妙で物理的に正確な振動を発生しながら、触覚設計のワークフローを単純化することを示している。
関連論文リスト
- TextLDM: Language Modeling with Continuous Latent Diffusion [89.69255520673248]
拡散変換器(DiT)は、VAEラテント空間におけるフローマッチングで訓練され、画像やビデオ間で統一された視覚生成を行う。
最小限のアーキテクチャ変更で視覚的潜伏拡散のレシピをテキスト生成に転送するTextLDMを提案する。
論文 参考訳(メタデータ) (2026-05-08T13:54:34Z) - Continuous Latent Diffusion Language Model [48.974403879186916]
大規模言語モデルは自己回帰パラダイムの下で顕著な成功を収めた。
既存の代替手段は、生成効率、スケーラブルな表現学習、効果的なグローバルセマンティックモデリングを共同で達成するのに依然として苦労している。
階層型情報分解によりテキスト生成をフレーム化する階層型潜在拡散言語モデルCola DLMを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:44:56Z) - LaScA: Language-Conditioned Scalable Modelling of Affective Dynamics [3.3187704612685267]
本稿では,言語モデル(LM)を手作業による影響記述子に対する意味的文脈条件付けとして利用する新しいフレームワークを提案する。
我々のアプローチは、構造的ドメイン知識から派生した、解釈可能な顔形状と音響特徴から始まる。
事前訓練されたLMはこれらの記述を処理し、感情力学よりも高いレベルの先行として機能する意味的文脈埋め込みを生成する。
論文 参考訳(メタデータ) (2026-04-08T15:18:39Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-19T17:33:31Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文 参考訳(メタデータ) (2023-08-15T08:49:14Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。