論文の概要: Not All Visitors are Bilingual: A Measurement Study of the Multilingual Web from an Accessibility Perspective
- arxiv url: http://arxiv.org/abs/2508.18328v1
- Date: Mon, 25 Aug 2025 02:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.531405
- Title: Not All Visitors are Bilingual: A Measurement Study of the Multilingual Web from an Accessibility Perspective
- Title(参考訳): ビジター全員がバイリンガルであるとは限らない:アクセシビリティの観点からの多言語Webの測定
- Authors: Masudul Hasan Masud Bhuiyan, Matteo Varvello, Yasir Zaki, Cristian-Alexandru Staicu,
- Abstract要約: 英語はウェブ上で支配的な言語であり、世界のトップ1000万のウェブサイトのほぼ半分を占めています。
多言語コンテンツのサポートは増加しており、多くのWebサイトは、可視的コンテンツと隠れメタデータの両方で、英語と地域言語、あるいはネイティブ言語を組み合わせている。
この多言語主義は視覚障害者にとって大きな障壁をもたらす。
LangCrUXは12言語にまたがる12万の人気のあるWebサイトの大規模なデータセットで、主に非ラテン語スクリプトを使用している。
- 参考スコア(独自算出の注目度): 11.062766066639398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: English is the predominant language on the web, powering nearly half of the world's top ten million websites. Support for multilingual content is nevertheless growing, with many websites increasingly combining English with regional or native languages in both visible content and hidden metadata. This multilingualism introduces significant barriers for users with visual impairments, as assistive technologies like screen readers frequently lack robust support for non-Latin scripts and misrender or mispronounce non-English text, compounding accessibility challenges across diverse linguistic contexts. Yet, large-scale studies of this issue have been limited by the lack of comprehensive datasets on multilingual web content. To address this gap, we introduce LangCrUX, the first large-scale dataset of 120,000 popular websites across 12 languages that primarily use non-Latin scripts. Leveraging this dataset, we conduct a systematic analysis of multilingual web accessibility and uncover widespread neglect of accessibility hints. We find that these hints often fail to reflect the language diversity of visible content, reducing the effectiveness of screen readers and limiting web accessibility. We finally propose Kizuki, a language-aware automated accessibility testing extension to account for the limited utility of language-inconsistent accessibility hints.
- Abstract(参考訳): 英語はウェブ上で支配的な言語であり、世界のトップ1000万のウェブサイトのほぼ半分を占めています。
にもかかわらず、多言語コンテンツのサポートは増えており、多くのWebサイトは、可視的コンテンツと隠されたメタデータの両方において、英語と地域言語、あるいはネイティブ言語を組み合わせている。
この多言語主義は、視覚障害を持つユーザにとって大きな障壁をもたらす。スクリーンリーダーのような補助技術は、ラテン語以外のスクリプトに対する堅牢なサポートを欠いていることや、英語以外のテキストを誤認したり、さまざまな言語的文脈でアクセシビリティの課題を複雑にしている。
しかし、この問題に関する大規模な研究は、多言語Webコンテンツに関する包括的なデータセットの欠如によって制限されている。
このギャップに対処するために、LangCrUXを紹介します。これは、主に非ラテン語スクリプトを使用する12言語で12万の人気のあるWebサイトの大規模なデータセットです。
このデータセットを活用することで、多言語Webアクセシビリティの体系的解析を行い、アクセシビリティヒントの広範囲な無視を明らかにする。
これらのヒントは、しばしば可視コンテンツの言語多様性を反映せず、スクリーンリーダーの有効性を減らし、ウェブアクセシビリティを制限している。
言語非一貫性のアクセシビリティヒントの限定的有効性を考慮した,言語対応の自動アクセシビリティテスト拡張であるKizukiを提案する。
関連論文リスト
- SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset [34.40254709148148]
コードスイッチング(Code-Switching, CS)とは、会話や発話の中で2つ以上の言語を交互に使用する方法である。
この言語現象は、自動音声認識(ASR)システムに課題をもたらす。
textbfSwitchLinguaは、最初の大規模多言語および多民族のコードスイッチングデータセットである。
論文 参考訳(メタデータ) (2025-05-30T05:54:46Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Learn and Unlearn in Multilingual LLMs [11.42788038138136]
本稿では,多言語大言語モデル(LLM)における有害情報の伝播について検討する。
フェイク情報は、どのような言語であっても、異なる言語にまたがって広がり、生成されたコンテンツの完全性と信頼性を損なう。
標準のアンラーニング技術は、典型的には英語データに焦点を当てるが、多言語文脈における有害なコンテンツの拡散を緩和するには不十分である。
論文 参考訳(メタデータ) (2024-06-19T18:01:08Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。