論文の概要: Variation is the Norm: Embracing Sociolinguistics in NLP
- arxiv url: http://arxiv.org/abs/2603.24222v1
- Date: Wed, 25 Mar 2026 11:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.272124
- Title: Variation is the Norm: Embracing Sociolinguistics in NLP
- Title(参考訳): ノームの変分--NLPにおけるソシオリンガスティックスを取り入れて
- Authors: Anne-Marie Lutgen, Alistair Plum, Verena Blaschke, Barbara Plank, Christoph Purschke,
- Abstract要約: 我々は、社会言語学を受け入れることで、変化を研究環境に積極的に組み込むことができると論じる。
本稿では,多量の正書法変化を特徴とする言語Luxembourgishのケーススタディについて述べる。
- 参考スコア(独自算出の注目度): 33.41727568599518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Natural Language Processing (NLP), variation is typically seen as noise and "normalised away" before processing, even though it is an integral part of language. Conversely, studying language variation in social contexts is central to sociolinguistics. We present a framework to combine the sociolinguistic dimension of language with the technical dimension of NLP. We argue that by embracing sociolinguistics, variation can actively be included in a research setup, in turn informing the NLP side. To illustrate this, we provide a case study on Luxembourgish, an evolving language featuring a large amount of orthographic variation, demonstrating how NLP performance is impacted. The results show large discrepancies in the performance of models tested and fine-tuned on data with a large amount of orthographic variation in comparison to data closer to the (orthographic) standard. Furthermore, we provide a possible solution to improve the performance by including variation in the fine-tuning process. This case study highlights the importance of including variation in the research setup, as models are currently not robust to occurring variation. Our framework facilitates the inclusion of variation in the thought-process while also being grounded in the theoretical framework of sociolinguistics.
- Abstract(参考訳): 自然言語処理(NLP)において、変分は通常、それが言語の不可欠な部分であるにもかかわらず、処理の前にノイズや「正規化」される。
逆に、社会的文脈における言語の変化を研究することは、社会言語学の中心である。
我々は,言語社会言語学の次元とNLPの技術的次元を結合する枠組みを提案する。
我々は、社会言語学を受け入れることで、NLP側を知らせる研究環境に変化を積極的に組み込むことができると論じる。
これを説明するために、我々はLuxembourgishについて事例研究を行った。Luxembourgishは、大量の正書法変化を特徴とする言語であり、NLPのパフォーマンスがどう影響するかを示す。
その結果, 規格に近いデータと比較して, 大量の正書法変化を持つデータに対して, テストおよび微調整を行ったモデルの性能に大きな差があることが判明した。
さらに、微調整プロセスのバリエーションを含めることで、性能を向上させることが可能なソリューションを提供する。
このケーススタディでは、モデルが現在、変動の発生に対して堅牢ではないため、研究設定に変異を含めることの重要性を強調している。
社会言語学の理論的枠組みにも根ざしつつ,思考過程に変化を取り入れることを容易にする枠組みである。
関連論文リスト
- Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation [9.23725598061561]
本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。
BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。
OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
論文 参考訳(メタデータ) (2026-02-04T05:59:25Z) - Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin [13.86823643401895]
ナイジェリアのピジン語は英語由来の接触言語であり、伝統的に口語であり、約1億人の人々が話していた。
正書法標準はまだ採用されておらず、利用可能なピジンデータセットは、正書法の変化の形でノイズによって特徴づけられる。
これは、重要なNLPタスクにおけるモデルの低パフォーマンスに寄与する。
現在の研究はナイジェリアのピジンのテキストに見られる様々な種類の正書法を初めて記述し、この正書法の変化をモデル化したものである。
我々は、このデータ拡張が2つの重要なNLPタスク、機械翻訳と感情に及ぼす影響をテストする。
論文 参考訳(メタデータ) (2024-04-28T18:07:13Z) - We're Calling an Intervention: Exploring Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、ユーザ生成テキストの中核的な特徴と、既存の言語モデルのバイアスとの相互作用を近似する介入を設計する。
非標準テキスト変種への言語モデル適応における介入の適用により、そのような適応がいつ成功したかについて重要な洞察を得る。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。