論文の概要: WebAccessVL: Making an Accessible Web via Violation-Conditioned VLM
- arxiv url: http://arxiv.org/abs/2602.03850v1
- Date: Fri, 19 Dec 2025 01:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.445063
- Title: WebAccessVL: Making an Accessible Web via Violation-Conditioned VLM
- Title(参考訳): WebAccessVL: Violation-Conditioned VLMによるアクセシブルWebの作成
- Authors: Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh,
- Abstract要約: 本稿では、Webコンテンツガイドライン2(WCAG2)違反に対処するため、WebサイトHTMLを編集するビジョン言語モデル(VLM)を提案する。
実験により,Webサイト毎の平均違反回数を5.34から0.44に効果的に削減できることが示された。
知覚学的研究により、編集されたウェブサイトが元の視覚的外観とコンテンツを維持していることが確認された。
- 参考スコア(独自算出の注目度): 35.724700089238766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a vision-language model (VLM) that automatically edits website HTML to address Web Content Accessibility Guidelines 2 (WCAG2) violations. We formulate this as a supervised image-conditioned program synthesis task, where the model learns to correct HTML given the HTML and its rendering. We collected WebAccessVL, a new dataset with manually corrected accessibility violations, establishing paired training data. We then propose a violation-conditioned VLM that additionally conditions on the WCAG2 violation count to guide the correction process. Experiments demonstrate that our method effectively reduces the average number of violations from 5.34 to 0.44 per website, outperforming commercial LLM APIs (Gemini, GPT-5). A perceptual study confirms that our edited websites maintain the original visual appearance and content.
- Abstract(参考訳): Webコンテンツアクセシビリティガイドライン2(WCAG2)違反に対処するため、WebサイトHTMLを自動的に編集するビジョン言語モデル(VLM)を提案する。
我々はこれを教師付き画像条件付きプログラム合成タスクとして定式化し、HTMLとそのレンダリングによってモデルがHTMLの正しさを学習する。
我々は、手動でアクセシビリティ違反を修正した新しいデータセットであるWebAccessVLを収集し、ペアのトレーニングデータを確立した。
次に,WCAG2違反数に関する条件を加味して補正プロセスを導出する違反条件付きVLMを提案する。
実験により,Webサイト毎の平均違反回数を5.34から0.44に減らし,商業LLM API(Gemini, GPT-5)を上回った。
知覚学的研究により、編集されたウェブサイトが元の視覚的外観とコンテンツを維持していることが確認された。
関連論文リスト
- FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges [85.24983823102262]
本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。
我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。
以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-12-01T19:46:03Z) - Decoding Latent Attack Surfaces in LLMs: Prompt Injection via HTML in Web Summarization [1.3537117504260623]
大規模言語モデル(LLM)は、コンテンツ要約のためのWebベースシステムに統合されつつある。
本研究では、Webページの可視コンテンツを変更することなく、非可視的なHTML要素をどのように活用して敵の命令を埋め込むかを検討する。
論文 参考訳(メタデータ) (2025-09-06T21:05:18Z) - AccessGuru: Leveraging LLMs to Detect and Correct Web Accessibility Violations in HTML Code [11.11923891120399]
本稿では,Webアクセシビリティ違反をSyntactic,Semantic,Layoutの3つの重要なカテゴリに分類する新しい分類法を提案する。
本稿では,既存のアクセシビリティテストツールとLarge Language Models(LLM)を組み合わせた新しい手法であるAccessGuruを提案する。
本ベンチマークでは,構文およびレイアウトのコンプライアンスを定量化し,人間の専門家による補正との比較分析により意味的精度を判定する。
論文 参考訳(メタデータ) (2025-07-24T17:59:30Z) - SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。
本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T13:32:07Z) - Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset [8.581656334758547]
我々は、200万組のHTMLコードとそれに対応するスクリーンショットからなるデータセットであるWebSightを紹介する。
この分野での研究を加速するため、私たちはWebSightをオープンソースにしました。
論文 参考訳(メタデータ) (2024-03-14T01:40:40Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - ACCESS: Prompt Engineering for Automated Web Accessibility Violation
Corrections [0.0]
本稿では,基盤モデルを用いて文書オブジェクトモデル(DOM)をリアルタイムで修正することにより,Web上のアクセシビリティ違反を修正する新しいアプローチを提案する。
新たなベンチマークであるACCESSの修正後のアクセシビリティ違反エラーを51%以上削減した。
論文 参考訳(メタデータ) (2024-01-28T22:49:33Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。