論文の概要: AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility
- arxiv url: http://arxiv.org/abs/2501.00113v1
- Date: Mon, 30 Dec 2024 19:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:29.999461
- Title: AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility
- Title(参考訳): AltGen: EPUBアクセシビリティを高めるAI駆動のAltテキスト生成
- Authors: Yixian Shen, Hang Zhang, Yanxin Shen, Lun Wang, Chuanqi Shi, Shaoshuai Du, Yiyi Tao,
- Abstract要約: 本稿では,画像用アルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
実験結果は、さまざまなデータセットにまたがるAltGenの有効性を示し、アクセシビリティエラーを97.5%削減した。
- 参考スコア(独自算出の注目度): 5.312946761836463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Digital accessibility is a cornerstone of inclusive content delivery, yet many EPUB files fail to meet fundamental accessibility standards, particularly in providing descriptive alt text for images. Alt text plays a critical role in enabling visually impaired users to understand visual content through assistive technologies. However, generating high-quality alt text at scale is a resource-intensive process, creating significant challenges for organizations aiming to ensure accessibility compliance. This paper introduces AltGen, a novel AI-driven pipeline designed to automate the generation of alt text for images in EPUB files. By integrating state-of-the-art generative models, including advanced transformer-based architectures, AltGen achieves contextually relevant and linguistically coherent alt text descriptions. The pipeline encompasses multiple stages, starting with data preprocessing to extract and prepare relevant content, followed by visual analysis using computer vision models such as CLIP and ViT. The extracted visual features are enriched with contextual information from surrounding text, enabling the fine-tuned language models to generate descriptive and accurate alt text. Validation of the generated output employs both quantitative metrics, such as cosine similarity and BLEU scores, and qualitative feedback from visually impaired users. Experimental results demonstrate the efficacy of AltGen across diverse datasets, achieving a 97.5% reduction in accessibility errors and high scores in similarity and linguistic fidelity metrics. User studies highlight the practical impact of AltGen, with participants reporting significant improvements in document usability and comprehension. Furthermore, comparative analyses reveal that AltGen outperforms existing approaches in terms of accuracy, relevance, and scalability.
- Abstract(参考訳): デジタルアクセシビリティは包括的コンテンツ配信の基盤となっているが、多くのEPUBファイルは基本的なアクセシビリティ標準を満たしていない。
アルトテキストは視覚障害者が補助技術を通して視覚的コンテンツを理解できるようにする上で重要な役割を担っている。
しかし、高品質なアルトテキストを大規模に生成することは、リソース集約的なプロセスであり、アクセシビリティのコンプライアンスを確保することを目的とした組織にとって重要な課題を生み出します。
本稿では,EPUBファイル内の画像に対するアルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
高度なトランスフォーマーベースのアーキテクチャを含む最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
パイプラインは複数のステージを含み、まずデータ前処理から、関連するコンテンツを抽出して準備し、続いてCLIPやViTといったコンピュータビジョンモデルを用いた視覚分析を行う。
抽出された視覚特徴は、周囲のテキストからコンテキスト情報に富み、微調整された言語モデルが記述的で正確なアルトテキストを生成することができる。
生成した出力の検証には、コサイン類似度やBLEUスコアなどのメトリクスと、視覚障害者からの質的なフィードバックの両方が使用されている。
実験の結果、さまざまなデータセットにまたがるAltGenの有効性が示され、アクセシビリティエラーが97.5%減少し、類似性と言語的忠実度指標のスコアが高くなった。
ユーザスタディはAltGenの実践的影響を強調し、参加者はドキュメントのユーザビリティと理解の大幅な改善を報告している。
さらに、AltGenは精度、妥当性、スケーラビリティという点で既存のアプローチよりも優れています。
関連論文リスト
- Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Advancements in Natural Language Processing: Exploring Transformer-Based Architectures for Text Understanding [10.484788943232674]
本稿では,BERT や GPT などのトランスフォーマーモデルの進歩を考察し,テキスト理解タスクにおける優れた性能に着目した。
その結果、GLUEやSQuADのようなベンチマークでは、高い計算コストなどの課題はあるものの、F1スコアが90%を超えている。
論文 参考訳(メタデータ) (2025-03-26T04:45:33Z) - SIT-FER: Integration of Semantic-, Instance-, Text-level Information for Semi-supervised Facial Expression Recognition [4.670023983240585]
セマンティック、インスタンス、テキストレベルの情報を同時に組み込んで高品質な擬似ラベルを生成する新しいSS-DFERフレームワークを提案する。
提案手法は現状のSS-DFER法を著しく上回り, 完全に教師付きベースラインを超えている。
論文 参考訳(メタデータ) (2025-03-24T09:08:14Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。
提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。
GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。