論文の概要: AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility
- arxiv url: http://arxiv.org/abs/2501.00113v1
- Date: Mon, 30 Dec 2024 19:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:40.312437
- Title: AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility
- Title(参考訳): AltGen: EPUBアクセシビリティを高めるAI駆動のAltテキスト生成
- Authors: Yixian Shen, Hang Zhang, Yanxin Shen, Lun Wang, Chuanqi Shi, Shaoshuai Du, Yiyi Tao,
- Abstract要約: 本稿では,画像用アルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
実験結果は、さまざまなデータセットにまたがるAltGenの有効性を示し、アクセシビリティエラーを97.5%削減した。
- 参考スコア(独自算出の注目度): 5.312946761836463
- License:
- Abstract: Digital accessibility is a cornerstone of inclusive content delivery, yet many EPUB files fail to meet fundamental accessibility standards, particularly in providing descriptive alt text for images. Alt text plays a critical role in enabling visually impaired users to understand visual content through assistive technologies. However, generating high-quality alt text at scale is a resource-intensive process, creating significant challenges for organizations aiming to ensure accessibility compliance. This paper introduces AltGen, a novel AI-driven pipeline designed to automate the generation of alt text for images in EPUB files. By integrating state-of-the-art generative models, including advanced transformer-based architectures, AltGen achieves contextually relevant and linguistically coherent alt text descriptions. The pipeline encompasses multiple stages, starting with data preprocessing to extract and prepare relevant content, followed by visual analysis using computer vision models such as CLIP and ViT. The extracted visual features are enriched with contextual information from surrounding text, enabling the fine-tuned language models to generate descriptive and accurate alt text. Validation of the generated output employs both quantitative metrics, such as cosine similarity and BLEU scores, and qualitative feedback from visually impaired users. Experimental results demonstrate the efficacy of AltGen across diverse datasets, achieving a 97.5% reduction in accessibility errors and high scores in similarity and linguistic fidelity metrics. User studies highlight the practical impact of AltGen, with participants reporting significant improvements in document usability and comprehension. Furthermore, comparative analyses reveal that AltGen outperforms existing approaches in terms of accuracy, relevance, and scalability.
- Abstract(参考訳): デジタルアクセシビリティは包括的コンテンツ配信の基盤となっているが、多くのEPUBファイルは基本的なアクセシビリティ標準を満たしていない。
アルトテキストは視覚障害者が補助技術を通して視覚的コンテンツを理解できるようにする上で重要な役割を担っている。
しかし、高品質なアルトテキストを大規模に生成することは、リソース集約的なプロセスであり、アクセシビリティのコンプライアンスを確保することを目的とした組織にとって重要な課題を生み出します。
本稿では,EPUBファイル内の画像に対するアルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
高度なトランスフォーマーベースのアーキテクチャを含む最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
パイプラインは複数のステージを含み、まずデータ前処理から、関連するコンテンツを抽出して準備し、続いてCLIPやViTといったコンピュータビジョンモデルを用いた視覚分析を行う。
抽出された視覚特徴は、周囲のテキストからコンテキスト情報に富み、微調整された言語モデルが記述的で正確なアルトテキストを生成することができる。
生成した出力の検証には、コサイン類似度やBLEUスコアなどのメトリクスと、視覚障害者からの質的なフィードバックの両方が使用されている。
実験の結果、さまざまなデータセットにまたがるAltGenの有効性が示され、アクセシビリティエラーが97.5%減少し、類似性と言語的忠実度指標のスコアが高くなった。
ユーザスタディはAltGenの実践的影響を強調し、参加者はドキュメントのユーザビリティと理解の大幅な改善を報告している。
さらに、AltGenは精度、妥当性、スケーラビリティという点で既存のアプローチよりも優れています。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。
提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。
GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - GenAug: Data Augmentation for Finetuning Text Generators [21.96895115572357]
本稿では,Yelp Reviews のサブセット上で GPT-2 を微調整するための外部知識を含む様々な拡張手法を提案し,評価する。
実験により,文字レベルの合成ノイズの挿入とハイパーネムのキーワード置換が効果的な拡張法であることを実証した。
論文 参考訳(メタデータ) (2020-10-05T05:46:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。