論文の概要: Invisible Languages of the LLM Universe
- arxiv url: http://arxiv.org/abs/2510.11557v1
- Date: Mon, 13 Oct 2025 16:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.442991
- Title: Invisible Languages of the LLM Universe
- Title(参考訳): LLMユニバースの目に見えない言語
- Authors: Saurabh Khanna, Xinxu Li,
- Abstract要約: 数百万の話者を持つ2000の言語は、デジタルエコシステムでは事実上見えません。
分析の結果,AIにおける英語の優位性は技術的必要ではなく,言語知識を体系的に排除する権力構造の人工物であることが判明した。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are trained on massive multilingual corpora, yet this abundance masks a profound crisis: of the world's 7,613 living languages, approximately 2,000 languages with millions of speakers remain effectively invisible in digital ecosystems. We propose a critical framework connecting empirical measurements of language vitality (real world demographic strength) and digitality (online presence) with postcolonial theory and epistemic injustice to explain why linguistic inequality in AI systems is not incidental but structural. Analyzing data across all documented human languages, we identify four categories: Strongholds (33%, high vitality and digitality), Digital Echoes (6%, high digitality despite declining vitality), Fading Voices (36%, low on both dimensions), and critically, Invisible Giants (27%, high vitality but near-zero digitality) - languages spoken by millions yet absent from the LLM universe. We demonstrate that these patterns reflect continuities from colonial-era linguistic hierarchies to contemporary AI development, constituting what we term digital epistemic injustice. Our analysis reveals that English dominance in AI is not a technical necessity but an artifact of power structures that systematically exclude marginalized linguistic knowledge. We conclude with implications for decolonizing language technology and democratizing access to AI benefits.
- Abstract(参考訳): 大きな言語モデルは大規模な多言語コーパスで訓練されているが、この豊富な言語は深刻な危機を覆している。
本稿では,AIシステムにおける言語不平等が偶発的ではなく構造的である理由を説明するために,言語活力(実世界の人口動態の強さ)とデジタル性(オンライン存在)の実証的測定と,ポストコロニアル理論と疫学不公平を結びつける重要な枠組みを提案する。
すべての文書化された人間の言語にまたがるデータを分析した結果、要塞(33%、高い活力とデジタル性)、デジタルエコー(6%、活力の低下にもかかわらず高いデジタル性)、フェイディングボイス(36%、両方の次元で低い)、そして批判的に、不可視の巨人(27%、高い活力とほぼゼロのデジタル性)の4つのカテゴリが特定された。
これらのパターンは、植民地時代の言語階層から現代のAI開発への連続性を反映し、私たちがデジタル・エピステマティック・不正と呼ぶものを構成することを実証する。
分析の結果,AIにおける英語の優位性は技術的必要ではなく,言語知識を体系的に排除する権力構造の人工物であることが判明した。
私たちは、言語技術のデコロン化とAIのメリットへのアクセスの民主化について、その意味を結論付けます。
関連論文リスト
- Losing our Tail -- Again: On (Un)Natural Selection And Multilingual Large Language Models [0.8702432681310399]
言語分布の尾は消えつつあるし、それらとともに、彼らが持っている物語やアイデンティティも消えつつある、と私は主張する。
これは言語的平坦化に抵抗し、NLPを多言語的・言語的多様性と創造性を表現的に促進し、価値を与え、保護する分野として再想像することである。
論文 参考訳(メタデータ) (2025-07-05T07:36:49Z) - Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems [0.4218593777811082]
言語は文化的アイデンティティの基盤となっているが、グローバル化と主要言語の優位性により、3000近い言語が絶滅の危機にさらされている。
既存のAI駆動翻訳モデルは効率を優先するが、しばしば文化的ニュアンス、慣用的な表現、歴史的重要性を捉えない。
本稿では,言語コミュニティにおける文化適応型翻訳のための多言語AIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T06:43:59Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Understanding Natural Language Understanding Systems. A Critical
Analysis [91.81211519327161]
自然言語理解システム(Natural Language Understanding (NLU) system)としても知られる usguillemotright(英語版) のようなギユモトレフトークを持つ機械の開発は、人工知能の聖杯(英語版) (AI) である。
しかし、Gillemottalking machineguillemotrightを構築することができるという信頼は、次世代のNLUシステムによってもたらされたものよりも強かった。
私たちは新しい時代の夜明けに、ついに砂利が我々に近づいたのか?
論文 参考訳(メタデータ) (2023-03-01T08:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。