論文の概要: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- arxiv url: http://arxiv.org/abs/2504.04722v2
- Date: Thu, 15 May 2025 15:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.339479
- Title: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- Title(参考訳): TactileNet: 視覚障害者のためのAI生成触覚グラフィックスによるアクセシビリティギャップのブリッジ
- Authors: Adnan Khan, Alireza Choubineh, Mai A. Shaaban, Abbas Akkasi, Majid Komeili,
- Abstract要約: 触覚グラフィックスは、世界4300万人の視覚障害者に視覚情報へのアクセスを提供するのに不可欠である。
これらのグラフィックを作成する従来の方法は労働集約的であり、需要の増加に対応できない。
私たちは、組み込み対応の2D触覚テンプレートを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介します。
- 参考スコア(独自算出の注目度): 5.627346969563955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile graphics are essential for providing access to visual information for the 43 million people globally living with vision loss. Traditional methods for creating these graphics are labor-intensive and cannot meet growing demand. We introduce TactileNet, the first comprehensive dataset and AI-driven framework for generating embossing-ready 2D tactile templates using text-to-image Stable Diffusion (SD) models. By integrating Low-Rank Adaptation (LoRA) and DreamBooth, our method fine-tunes SD models to produce high-fidelity, guideline-compliant graphics while reducing computational costs. Quantitative evaluations with tactile experts show 92.86% adherence to accessibility standards. Structural fidelity analysis revealed near-human design similarity, with an SSIM of 0.538 between generated graphics and expert-designed tactile images. Notably, our method preserves object silhouettes better than human designs (SSIM = 0.259 vs. 0.215 for binary masks), addressing a key limitation of manual tactile abstraction. The framework scales to 32,000 images (7,050 high-quality) across 66 classes, with prompt editing enabling customizable outputs (e.g., adding or removing details). By automating the 2D template generation step-compatible with standard embossing workflows-TactileNet accelerates production while preserving design flexibility. This work demonstrates how AI can augment (not replace) human expertise to bridge the accessibility gap in education and beyond. Code, data, and models will be publicly released to foster further research.
- Abstract(参考訳): 触覚グラフィックスは、世界4300万人の視覚障害者に視覚情報へのアクセスを提供するのに不可欠である。
これらのグラフィックを作成する従来の方法は労働集約的であり、需要の増加に対応できない。
我々は、テキスト・ツー・イメージの安定拡散(SD)モデルを用いてエンボス可能な2D触覚テンプレートを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介した。
低ランク適応(LoRA)とDreamBoothを統合することで,高忠実でガイドラインに適合したグラフィックを高精細なSDモデルで生成し,計算コストを低減できる。
触覚の専門家による定量的評価は、アクセシビリティ標準に92.86%準拠していることを示している。
構造的忠実度解析は、生成したグラフィックと専門家が設計した触覚画像の間に0.538のSSIMを伴って、人間に近い設計の類似性を示した。
特に,本手法は,手動触覚抽象化の鍵となる限界に対処するため,人体設計よりも優れたオブジェクトシルエット(SSIM = 0.259 vs. 0.215)を保存している。
このフレームワークは66のクラスで32,000のイメージ(7,050の高品質)にスケールし、カスタマイズ可能なアウトプット(詳細の追加や削除など)を即時に編集する。
2Dテンプレート生成を標準的なエンボスワークフローとステップ互換にすることで、TactileNetは設計の柔軟性を維持しながら生産を加速する。
この研究は、AIが人間の専門知識を拡大(置き換えない)して、教育とそれ以上のアクセシビリティギャップを埋める方法を示している。
コード、データ、モデルは公開され、さらなる研究を促進する。
関連論文リスト
- Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - OSPC: Artificial VLM Features for Hateful Meme Detection [0.0]
本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
論文 参考訳(メタデータ) (2024-07-03T21:35:52Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - Spatio-temporal Attention Model for Tactile Texture Recognition [25.06942319117782]
触覚テクスチャ認識のための新しい時空間注意モデル(STAM)を提案する。
提案したSTAMは,それぞれの触覚テクスチャの空間的焦点と触覚シーケンスの時間的相関の両方に注意を払っている。
100種類の異なる布のテクスチャを識別する実験では,空間的,時間的に選択的な注意が認識精度を大幅に向上させた。
論文 参考訳(メタデータ) (2020-08-10T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。