論文の概要: From Data Scarcity to Data Care: Reimagining Language Technologies for Serbian and other Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2512.10630v1
- Date: Thu, 11 Dec 2025 13:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.377789
- Title: From Data Scarcity to Data Care: Reimagining Language Technologies for Serbian and other Low-Resource Languages
- Title(参考訳): データスカシティからデータケアへ:セルビア語や他の低リソース言語のための言語技術を再考する
- Authors: Smiljana Antonijevic Ubois,
- Abstract要約: 本研究では、AI時代の低資源言語のための言語技術開発を形作る構造的、歴史的、社会技術的要因について検討する。
これは、現代の問題によって強化されたセルビアのテキスト遺産の歴史的破壊に根ざした課題を辿るものである。
これらの課題に対処するため、この研究は、CARE原則に基づくフレームワークであるData Careを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models are commonly trained on dominant languages like English, and their representation of low resource languages typically reflects cultural and linguistic biases present in the source language materials. Using the Serbian language as a case, this study examines the structural, historical, and sociotechnical factors shaping language technology development for low resource languages in the AI age. Drawing on semi structured interviews with ten scholars and practitioners, including linguists, digital humanists, and AI developers, it traces challenges rooted in historical destruction of Serbian textual heritage, intensified by contemporary issues that drive reductive, engineering first approaches prioritizing functionality over linguistic nuance. These include superficial transliteration, reliance on English-trained models, data bias, and dataset curation lacking cultural specificity. To address these challenges, the study proposes Data Care, a framework grounded in CARE principles (Collective Benefit, Authority to Control, Responsibility, and Ethics), that reframes bias mitigation from a post hoc technical fix to an integral component of corpus design, annotation, and governance, and positions Data Care as a replicable model for building inclusive, sustainable, and culturally grounded language technologies in contexts where traditional LLM development reproduces existing power imbalances and cultural blind spots.
- Abstract(参考訳): 大規模な言語モデルは一般的に英語のような支配的な言語で訓練されており、その低資源言語の表現は典型的には、ソース言語資料に存在する文化的・言語的なバイアスを反映している。
セルビア語を事例として,AI時代の低資源言語のための言語技術開発を形作る構造的,歴史的,社会技術的要因について検討した。
言語学者、デジタルヒューマニスト、AI開発者を含む10人の学者や実践者による半構造化されたインタビューに基づいて、これはセルビアのテキスト遺産の歴史的破壊に根ざした課題を辿り、レダクティブを推進し、言語的ニュアンスよりも機能を優先するエンジニアリングファーストアプローチによって強化された。
これには、表面的な文字化、英語で訓練されたモデルへの依存、データバイアス、文化的特異性に欠けるデータセットキュレーションが含まれる。
従来のLLM開発が既存の権力不均衡や文化的盲点を再現するコンテキストにおいて、包括的で持続的で文化的に根ざした言語技術を構築するための複製可能なモデルとして、データケア(Data Care)を提案する。
関連論文リスト
- PLLuM: A Family of Polish Large Language Models [91.61661675434216]
ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。
本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。
モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
論文 参考訳(メタデータ) (2025-11-05T19:41:49Z) - Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems [0.4218593777811082]
言語は文化的アイデンティティの基盤となっているが、グローバル化と主要言語の優位性により、3000近い言語が絶滅の危機にさらされている。
既存のAI駆動翻訳モデルは効率を優先するが、しばしば文化的ニュアンス、慣用的な表現、歴史的重要性を捉えない。
本稿では,言語コミュニティにおける文化適応型翻訳のための多言語AIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T06:43:59Z) - Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research [32.14802247608518]
低リソース言語は、文化進化と知的多様性を具現化した、人類の歴史の貴重なリポジトリとして機能する。
その重要性にもかかわらず、これらの言語はデータ不足や技術的な制限など、重要な課題に直面している。
大規模言語モデル(LLM)の最近の進歩は、これらの課題に対処するための変革的な機会を提供する。
論文 参考訳(メタデータ) (2024-11-30T00:10:56Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - History, Development, and Principles of Large Language Models-An Introductory Survey [15.875687167037206]
自然言語処理(NLP)の基盤となる言語モデル
数十年にわたる広範な研究を経て、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
論文 参考訳(メタデータ) (2024-02-10T01:18:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。