論文の概要: LLM Based Web Accessibility Repair: An Empirical Study of Detection, Remediation, and Cost
- arxiv url: http://arxiv.org/abs/2605.27716v1
- Date: Tue, 26 May 2026 21:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.560822
- Title: LLM Based Web Accessibility Repair: An Empirical Study of Detection, Remediation, and Cost
- Title(参考訳): LLMによるWebアクセシビリティ修復:検出・修復・コストに関する実証的研究
- Authors: Oluwatoyosi Oyelayo, Ghada Abushaqra, Parham Asadi, Durjoy Dey, Diego Elias Costa,
- Abstract要約: 本稿では,アクセシビリティの自動検出と修復のための大規模言語モデルベースエージェント,特にKim K2.5について検討する。
LLMはルールベースのツールに匹敵するパフォーマンスを実現しており、F1は約0.65であり、F1の強い意味理解は0.83であるが、構文およびレイアウト関連の違反に対する信頼性は低い。
修復のために、LCMの生成した修正は99.7%以上のケースで構文的に有効であり、80.2%のインスタンスではアクセシビリティコンプライアンスを改善し、1ファイルあたりの違反を3.98から1.7に減らしている。
- 参考スコア(独自算出の注目度): 1.068768727414769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring web accessibility at scale remains challenging because rule-based tools provide limited coverage while manual remediation is costly and error-prone. This paper evaluates large language model based agents, specifically Kimi K2.5, for automated accessibility detection and repair compared with rule-based approaches. For detection, the LLM achieves performance comparable to rule-based tools, with F1 around 0.65, strong semantic understanding with F1 of 0.83, but lower reliability for syntactic and layout-related violations. For remediation, LLM-generated fixes are syntactically valid in over 99.7 percent of cases and improve accessibility compliance in 80.2 percent of instances, reducing violations from 3.98 to 1.7 per file. However, fewer than 26 percent of cases are fully resolved, and about 30 percent of patches introduce structural changes. We also find that iterative agent-based refinement increases computational cost by 52 percent and API usage by 1.64 times without improving remediation outcomes. These findings indicate that while LLMs are effective for partial accessibility repair, they are insufficient for complete and reliable remediation. Scalable accessibility solutions require hybrid approaches that combine LLM capabilities with rule-based validation and constraint-aware correction mechanisms.
- Abstract(参考訳): ルールベースのツールは、手作業による修復がコストが高く、エラーが発生しやすいのに対して、限定的なカバレッジを提供するため、大規模なWebアクセシビリティの確保は依然として困難である。
本稿では,大規模言語モデルに基づくエージェント,特にKim K2.5について,ルールベースのアプローチと比較してアクセシビリティの自動検出と修復について検討する。
LLMはルールベースのツールに匹敵するパフォーマンスを実現しており、F1は約0.65であり、F1の強い意味理解は0.83であるが、構文およびレイアウト関連の違反に対する信頼性は低い。
修復のために、LCMの生成した修正は99.7%以上のケースで構文的に有効であり、80.2%のインスタンスではアクセシビリティコンプライアンスを改善し、1ファイルあたりの違反を3.98から1.7に減らしている。
しかし、完全に解決されたケースは26%に満たず、パッチの約30%は構造的変化をもたらす。
また,反復的エージェントベース改良により計算コストが52%向上し,API使用率が1.64倍になった。
これらの結果から, LLMは部分的アクセシビリティ修復には有効であるが, 完全かつ信頼性の高い修復には不十分であることが示唆された。
スケーラブルアクセシビリティソリューションは、LLM機能とルールベースのバリデーションと制約対応の補正機構を組み合わせたハイブリッドアプローチを必要とする。
関連論文リスト
- OptiLoop: Coordination-in-the-Loop Verification and Repair for LLM-Generated Optimization Agents [0.9543827270223156]
分散された決定問題は、複数の当事者が共有された決定を調整する必要がある。
大規模言語モデル(LLM)は、ローカル最適化エージェントを生成することで参加障壁を低くする有望な方法を提供する。
LLM生成最適化エージェントのコーディネーション・イン・ザ・ループ検証と修復を提案する。
論文 参考訳(メタデータ) (2026-05-26T19:49:41Z) - Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Adaptive Cost-Efficient Evaluation for Reliable Patent Claim Validation [35.13558856456741]
本研究では、予測エントロピーを用いて、高い不確実性のみを専門家 LLM にルーティングするハイブリッドフレームワークであるACE(Adaptive Cost- efficient Evaluation)を提案する。
ACEは94.95%で評価された手法の中で最高のF1を達成し、スタンドアロンのLCMデプロイメントと比較して運用コストを78%削減した。
論文 参考訳(メタデータ) (2026-04-05T22:25:36Z) - ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization [6.572539312871392]
大規模言語モデル(LLM)は、自然言語を最適化コードに変換することができるが、サイレント障害は重大なリスクをもたらす。
2つの相補的な方向からサイレント障害に対処するReLoopを紹介します。
論文 参考訳(メタデータ) (2026-02-17T20:20:33Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。