論文の概要: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- arxiv url: http://arxiv.org/abs/2504.04722v2
- Date: Thu, 15 May 2025 15:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.339479
- Title: TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment
- Title(参考訳): TactileNet: 視覚障害者のためのAI生成触覚グラフィックスによるアクセシビリティギャップのブリッジ
- Authors: Adnan Khan, Alireza Choubineh, Mai A. Shaaban, Abbas Akkasi, Majid Komeili,
- Abstract要約: 触覚グラフィックスは、世界4300万人の視覚障害者に視覚情報へのアクセスを提供するのに不可欠である。
これらのグラフィックを作成する従来の方法は労働集約的であり、需要の増加に対応できない。
私たちは、組み込み対応の2D触覚テンプレートを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介します。
- 参考スコア(独自算出の注目度): 5.627346969563955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile graphics are essential for providing access to visual information for the 43 million people globally living with vision loss. Traditional methods for creating these graphics are labor-intensive and cannot meet growing demand. We introduce TactileNet, the first comprehensive dataset and AI-driven framework for generating embossing-ready 2D tactile templates using text-to-image Stable Diffusion (SD) models. By integrating Low-Rank Adaptation (LoRA) and DreamBooth, our method fine-tunes SD models to produce high-fidelity, guideline-compliant graphics while reducing computational costs. Quantitative evaluations with tactile experts show 92.86% adherence to accessibility standards. Structural fidelity analysis revealed near-human design similarity, with an SSIM of 0.538 between generated graphics and expert-designed tactile images. Notably, our method preserves object silhouettes better than human designs (SSIM = 0.259 vs. 0.215 for binary masks), addressing a key limitation of manual tactile abstraction. The framework scales to 32,000 images (7,050 high-quality) across 66 classes, with prompt editing enabling customizable outputs (e.g., adding or removing details). By automating the 2D template generation step-compatible with standard embossing workflows-TactileNet accelerates production while preserving design flexibility. This work demonstrates how AI can augment (not replace) human expertise to bridge the accessibility gap in education and beyond. Code, data, and models will be publicly released to foster further research.
- Abstract(参考訳): 触覚グラフィックスは、世界4300万人の視覚障害者に視覚情報へのアクセスを提供するのに不可欠である。
これらのグラフィックを作成する従来の方法は労働集約的であり、需要の増加に対応できない。
我々は、テキスト・ツー・イメージの安定拡散(SD)モデルを用いてエンボス可能な2D触覚テンプレートを生成するための、最初の包括的なデータセットとAI駆動のフレームワークであるTactileNetを紹介した。
低ランク適応(LoRA)とDreamBoothを統合することで,高忠実でガイドラインに適合したグラフィックを高精細なSDモデルで生成し,計算コストを低減できる。
触覚の専門家による定量的評価は、アクセシビリティ標準に92.86%準拠していることを示している。
構造的忠実度解析は、生成したグラフィックと専門家が設計した触覚画像の間に0.538のSSIMを伴って、人間に近い設計の類似性を示した。
特に,本手法は,手動触覚抽象化の鍵となる限界に対処するため,人体設計よりも優れたオブジェクトシルエット(SSIM = 0.259 vs. 0.215)を保存している。
このフレームワークは66のクラスで32,000のイメージ(7,050の高品質)にスケールし、カスタマイズ可能なアウトプット(詳細の追加や削除など)を即時に編集する。
2Dテンプレート生成を標準的なエンボスワークフローとステップ互換にすることで、TactileNetは設計の柔軟性を維持しながら生産を加速する。
この研究は、AIが人間の専門知識を拡大(置き換えない)して、教育とそれ以上のアクセシビリティギャップを埋める方法を示している。
コード、データ、モデルは公開され、さらなる研究を促進する。
関連論文リスト
- Towards Generalization of Tactile Image Generation: Reference-Free Evaluation in a Leakage-Free Setting [25.355424080824996]
触覚は人間の知覚に重要であり、コンピュータビジョン、ロボティクス、マルチモーダル学習の応用を支えている。
触覚データは入手が困難でコストがかかることが多いため、合成触覚画像の生成は、実世界の測定を拡大するためのスケーラブルなソリューションを提供する。
一般的なデータセットにおける重なり合うトレーニングとテストサンプルは、パフォーマンス指標を増大させ、触覚モデルの真の一般化可能性を見極めることを実証する。
論文 参考訳(メタデータ) (2025-03-10T02:37:22Z) - FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction [91.09318592542509]
この研究は、視覚自己回帰モデリングにおける残差予測パラダイムに挑戦する。
新しいフレキシブルなVisual AutoRegressiveイメージ生成パラダイムを提供する。
このシンプルで直感的なアプローチは、視覚分布を素早く学習し、生成プロセスをより柔軟で適応可能にします。
論文 参考訳(メタデータ) (2025-02-27T17:39:17Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - OSPC: Artificial VLM Features for Hateful Meme Detection [0.0]
本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
論文 参考訳(メタデータ) (2024-07-03T21:35:52Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2024-02-26T18:55:15Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Controllable Visual-Tactile Synthesis [28.03469909285511]
一つのスケッチから視覚と触覚の両方の出力を合成する条件生成モデルを開発した。
次に,電気接着型触覚デバイスに高品質な視覚・触覚出力を描画するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-04T17:59:51Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - VisTaNet: Attention Guided Deep Fusion for Surface Roughness
Classification [0.0]
本稿では,既存の触覚データセットを付加した視覚データセットを提案する。
4種類の融合戦略を用いて視覚・触覚データを融合する新しい深層融合アーキテクチャを提案する。
本モデルでは触覚のみに比べて表面粗さ分類精度が97.22%向上した。
論文 参考訳(メタデータ) (2022-09-18T09:37:06Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - Spatio-temporal Attention Model for Tactile Texture Recognition [25.06942319117782]
触覚テクスチャ認識のための新しい時空間注意モデル(STAM)を提案する。
提案したSTAMは,それぞれの触覚テクスチャの空間的焦点と触覚シーケンスの時間的相関の両方に注意を払っている。
100種類の異なる布のテクスチャを識別する実験では,空間的,時間的に選択的な注意が認識精度を大幅に向上させた。
論文 参考訳(メタデータ) (2020-08-10T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。