論文の概要: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- arxiv url: http://arxiv.org/abs/2504.04722v1
- Date: Mon, 07 Apr 2025 04:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:16.457393
- Title: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- Title(参考訳): TactileNet: 視覚障害者のためのAI生成触覚グラフィックスによるアクセシビリティギャップのブリッジ
- Authors: Adnan Khan, Alireza Choubineh, Mai A. Shaaban, Abbas Akkasi, Majid Komeili,
- Abstract要約: 触覚グラフィックスは、世界4300万人の視覚障害者に視覚情報へのアクセスを提供するのに不可欠である。
これらの触覚グラフィックを作成する従来の方法は、労働集約的であり、需要を満たすのに苦労している。
私たちは、触覚グラフィックを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介します。
- 参考スコア(独自算出の注目度): 5.627346969563955
- License:
- Abstract: Tactile graphics are essential for providing access to visual information for the 43 million people globally living with vision loss, as estimated by global prevalence data. However, traditional methods for creating these tactile graphics are labor-intensive and struggle to meet demand. We introduce TactileNet, the first comprehensive dataset and AI-driven framework for generating tactile graphics using text-to-image Stable Diffusion (SD) models. By integrating Low-Rank Adaptation (LoRA) and DreamBooth, our method fine-tunes SD models to produce high-fidelity, guideline-compliant tactile graphics while reducing computational costs. Evaluations involving tactile experts show that generated graphics achieve 92.86% adherence to tactile standards and 100% alignment with natural images in posture and features. Our framework also demonstrates scalability, generating 32,000 images (7,050 filtered for quality) across 66 classes, with prompt editing enabling customizable outputs (e.g., adding/removing details). Our work empowers designers to focus on refinement, significantly accelerating accessibility efforts. It underscores the transformative potential of AI for social good, offering a scalable solution to bridge the accessibility gap in education and beyond.
- Abstract(参考訳): 触覚グラフィックスは、全世界で視力喪失を抱えている4300万人の人々の視覚情報へのアクセスに不可欠である。
しかし、これらの触覚グラフィックを作成する従来の方法は労働集約的であり、需要を満たすのに苦労している。
我々は、テキスト・ツー・イメージの安定拡散(SD)モデルを用いた触覚グラフィックを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介した。
低ランク適応(LoRA)とDreamBoothを統合することで,高忠実でガイドラインに適合した触覚グラフィックを高精細なSDモデルで生成し,計算コストを低減できる。
触覚の専門家による評価によると、生成したグラフィックは触覚基準に92.86%準拠し、姿勢や特徴において自然画像と100%一致している。
また,66のクラスで32,000のイメージ(7,050)を生成し,カスタマイズ可能なアウトプット(詳細の追加・削除など)を即時に編集する。
私たちの仕事はデザイナーに改良に集中させ、アクセシビリティーの取り組みを著しく加速させます。
これは、AIの社会的利益への変革の可能性を強調し、教育とそれ以上のアクセシビリティギャップを埋めるスケーラブルなソリューションを提供する。
関連論文リスト
- Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - OSPC: Artificial VLM Features for Hateful Meme Detection [0.0]
本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
論文 参考訳(メタデータ) (2024-07-03T21:35:52Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - VisTaNet: Attention Guided Deep Fusion for Surface Roughness
Classification [0.0]
本稿では,既存の触覚データセットを付加した視覚データセットを提案する。
4種類の融合戦略を用いて視覚・触覚データを融合する新しい深層融合アーキテクチャを提案する。
本モデルでは触覚のみに比べて表面粗さ分類精度が97.22%向上した。
論文 参考訳(メタデータ) (2022-09-18T09:37:06Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - Spatio-temporal Attention Model for Tactile Texture Recognition [25.06942319117782]
触覚テクスチャ認識のための新しい時空間注意モデル(STAM)を提案する。
提案したSTAMは,それぞれの触覚テクスチャの空間的焦点と触覚シーケンスの時間的相関の両方に注意を払っている。
100種類の異なる布のテクスチャを識別する実験では,空間的,時間的に選択的な注意が認識精度を大幅に向上させた。
論文 参考訳(メタデータ) (2020-08-10T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。