論文の概要: The Generator-Eraser Paradox: Community Guidelines for Responsible LLM-Assisted Dialect Resource Creation
- arxiv url: http://arxiv.org/abs/2606.06004v1
- Date: Thu, 04 Jun 2026 10:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.733759
- Title: The Generator-Eraser Paradox: Community Guidelines for Responsible LLM-Assisted Dialect Resource Creation
- Title(参考訳): ジェネレータパラドックス
- Authors: Wajdi Zaghouani,
- Abstract要約: 辞書資源は、科学的記述、文化保存、計算インフラの共通点において、ユニークな位置を占める。
大きな言語モデルは、検索基盤のドラフト、コーパスナビゲーション、メタデータの強化、アノテーションワークフローのサポートを通じて、方言リソース開発を加速する強力な機能を提供する。
しかし、同じシステムは、名門品種を特権化し、正書法を均質化し、時間とともに言語多様性を減少させる合成フィードバックループを可能にすることによって、方言の消去に寄与することができる。
- 参考スコア(独自算出の注目度): 0.7734073750595959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialect resources occupy a unique position at the intersection of scientific description, cultural preservation, and computational infrastructure. Large language models offer powerful capabilities for accelerating dialect resource development through retrieval-grounded drafting, corpus navigation, metadata enrichment, and annotation workflow support. However, the same systems pose substantial risks: they can contribute to dialect erasure by privileging prestige varieties, homogenizing orthography, and enabling synthetic feedback loops that reduce linguistic diversity over time. These risks are particularly acute for language varieties characterized by diglossia, limited written standardization, or marginalized speaker communities. This paper makes three contributions. First, we integrate insights from variationist sociolinguistics and corpus linguistics to formalize the generator-eraser paradox as a theoretical framework for understanding the dual nature of LLM-assisted dialect work. Second, we derive 12 community guidelines that operationalize this framework into implementable design requirements for dialect resource creation and documentation. Third, we provide an in-depth case study of Arabic dialects, including a structured comparison of widely used resources, to demonstrate how these guidelines address language-specific challenges including diglossia, orthographic variability, and community governance. The contribution is conceptual and operational rather than experimental, with the goal of enabling dialect communities and resource builders across languages to adopt LLMs without sacrificing authenticity, variation, or sovereignty.
- Abstract(参考訳): 辞書資源は、科学的記述、文化保存、計算インフラの共通点において、ユニークな位置を占める。
大きな言語モデルは、検索基盤のドラフト、コーパスナビゲーション、メタデータの強化、アノテーションワークフローのサポートを通じて、方言リソース開発を加速する強力な機能を提供する。
しかし、同じシステムは、名門品種を特権化し、正書法を均質化し、時とともに言語多様性を減少させる合成フィードバックループを可能にすることによって、方言の消去に寄与することができる。
これらのリスクは、特に、厳格さ、限られた書面の標準化、あるいは話者コミュニティの辺境化によって特徴づけられる言語品種にとって急激である。
この論文には3つの貢献がある。
まず、変分主義社会言語学とコーパス言語学の知見を統合し、ジェネレータ・エラザー・パラドックスをLLM支援方言の二重性を理解する理論的枠組みとして定式化する。
第2に、このフレームワークを運用する12のコミュニティガイドラインを、方言リソースの作成と文書化のための実装可能な設計要件に導出します。
第3に、広く使用されている資源の構造化比較を含むアラビア方言の詳細なケーススタディを提供し、これらのガイドラインが、地質学、正書法変数、コミュニティガバナンスなどの言語固有の課題にどのように対処するかを実証する。
このコントリビューションは、実験よりも概念的かつ運用的であり、言語をまたいだ方言コミュニティやリソースビルダーが、信頼性、バリエーション、主権を犠牲にすることなくLLMを採用することを可能にすることを目的としている。
関連論文リスト
- LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance [77.58408743830314]
強化学習は大規模言語モデルにおける多段階推論の強化に有効であることが証明されている。
しかし、その利点は多言語文脈に完全には翻訳されていない。
我々は、言語条件付きヒントを利用して、英語以外の推論タスクの探索をガイドする新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2026-05-21T14:47:52Z) - Sign Language Recognition and Translation for Low-Resource Languages: Challenges and Pathways Forward [0.0]
手話は自然で視覚的な言語であり、世界中のDeafコミュニティで使われている。
300以上の異なる手話言語は、限られたドキュメント、スパースデータセット、不十分な計算ツールのために、非常に低リソースのままである。
本稿では,アゼルバイジャン手話(AzSL)をケーススタディとして,手話認識とアンダーリソース言語への翻訳に関する文献を整理する。
論文 参考訳(メタデータ) (2026-05-12T13:13:56Z) - Shaping Schema via Language Representation as the Next Frontier for LLM Intelligence Expanding [88.11781604392606]
本稿では,言語表現を実世界の地図化とモデル化に使用される言語的・象徴的構造として定義する。
我々は、高度な言語表現によるスキーマ形成が、大規模言語モデルの拡張の次のフロンティアであると主張している。
論文 参考訳(メタデータ) (2026-05-10T02:42:29Z) - IDIOLEX: Unified and Continuous Representations for Idiolectal and Stylistic Variation [88.98544786373212]
既存の文表現は主に、その表現方法ではなく、ある文が何を言っているかを符号化する。
本研究は,意味内容から分離したスタイルと方言をキャプチャする文表現を開発する。
IDIOLEX(IDIOLEX)は,文の証明から文の内容の言語的特徴までを統括するモデルを訓練するためのフレームワークである。
論文 参考訳(メタデータ) (2026-04-06T14:17:24Z) - \textit{Versteasch du mi?} Computational and Socio-Linguistic Perspectives on GenAI, LLMs, and Non-Standard Language [2.6461502412805062]
大規模言語モデルと生成的人工知能は、より難解な言語に「不公平」であり、デジタル言語分割の深化を図っている。
本稿では,これらの技術が「モノリス的,モノリンガル的,統語的,統語論的に標準化された意味体系」として言語認識を悪化させていることを論じる。
南チロル方言はイタリア・南チロルの非公式なコミュニケーションに広く用いられているが、クルド語の変種は、GenAIと言語的変動と標準化の交差点を学際的に探究するための出発点である。
論文 参考訳(メタデータ) (2026-03-30T09:34:41Z) - Integrating Linguistics and AI: Morphological Analysis and Corpus development of Endangered Toto Language of West Bengal [0.6089496237595778]
本稿では,トリンガル(トト・バングラ・英語)言語学習アプリケーションの開発を目的としたプロジェクトの一部である。
インド・西ベンガルの絶滅危惧言語であるトト語をデジタルでアーカイブし、推進することを目的としている。
論文 参考訳(メタデータ) (2025-10-26T11:22:46Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。