論文の概要: LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish
- arxiv url: http://arxiv.org/abs/2603.10789v1
- Date: Wed, 11 Mar 2026 14:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.981765
- Title: LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish
- Title(参考訳): LuxBorrow: ポンピエからポンピエへ、ルクセンブルクでボーリング
- Authors: Nina Hosseini-Kivanani, Fred Philippy,
- Abstract要約: LuxBorrowは、Luxembourgish(LU)ニュースを27年間(1999-2025年)にわたって借用し、259,305のRTL記事と43.7Mトークンをカバーしている。
我々のパイプラインは、文レベルの言語識別と、LU文に制限されたトークンレベルの借用レゾルバを組み合わせる。
- 参考スコア(独自算出の注目度): 1.768960517767212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LuxBorrow, a borrowing-first analysis of Luxembourgish (LU) news spanning 27 years (1999-2025), covering 259,305 RTL articles and 43.7M tokens. Our pipeline combines sentence-level language identification (LU/DE/FR/EN) with a token-level borrowing resolver restricted to LU sentences, using lemmatization, a collected loanword registry, and compiled morphological and orthographic rules. Empirically, LU remains the matrix language across all documents, while multilingual practice is pervasive: 77.1% of articles include at least one donor language and 65.4% use three or four. Breadth does not imply intensity: median code-mixing index (CMI) increases from 3.90 (LU+1) to only 7.00 (LU+3), indicating localized insertions rather than balanced bilingual text. Domain and period summaries show moderate but persistent mixing, with CMI rising from 6.1 (1999-2007) to a peak of 8.4 in 2020. Token-level adaptations total 25,444 instances and exhibit a mixed profile: morphological 63.8%, orthographic 35.9%, lexical 0.3%. The most frequent individual rules are orthographic, such as on->oun and eur->er, while morphology is collectively dominant. Diachronically, code-switching intensifies, and morphologically adapted borrowings grow from a small base. French overwhelmingly supplies adapted items, with modest growth for German and negligible English. We advocate borrowing-centric evaluation, including borrowed token and type rates, donor entropy over borrowed items, and assimilation ratios, rather than relying only on document-level mixing indices.
- Abstract(参考訳): LuxBorrowはLuxembourgish(LU)ニュースを27年間(1999-2025年)にわたって借用し、259,305のRTL記事と43.7Mトークンをカバーしている。
我々のパイプラインは,LLU文に制限されたトークンレベルの借用レゾルバと文レベルの言語識別(LU/DE/FR/EN)を組み合わせる。
論文の77.1%は少なくとも1つのドナー言語を含み、65.4%は3つか4つのドナー言語を使っている。
平均符号混合指数(CMI)は3.90(LU+1)から7.00(LU+3)に増加し、バランスの取れたバイリンガルテキストよりも局所的な挿入を示す。
CMIは1999-2007年の6.1から2020年の8.4に上昇した。
トーケンレベルの適応は25,444件あり、形態素63.8%、正書法35.9%、語彙0.3%である。
最も頻繁な個々の規則は正書法であり、オン・オウンやユール・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・ア・
偶然にも、コードスイッチングは強化され、形態的に適応した借入は小さなベースから成長する。
フランスは適応した品物を圧倒的に供給し、ドイツ語と無視できる英語は緩やかに成長した。
我々は,借入トークンと型率,借入アイテムに対するドナーエントロピー,同化率などの借入中心評価を,文書レベルの混合指標にのみ依存せず提唱する。
関連論文リスト
- BLUFF: Benchmarking the Detection of False and Synthetic Content across 58 Low-Resource Languages [11.893370892009834]
BLUFFは、79言語で偽と合成のコンテンツを検出するためのベンチマークである。
高リソースの "Big-head" (20) と低リソースの "Long-tail" (59) 言語の両方をカバーする。
AXL-CoIは,偽ニュース・実ニュース生成を制御するための新しいマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-02-28T12:58:31Z) - Meta CLIP 2: A Worldwide Scaling Recipe [112.4690561863437]
私たちは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMeta CLIP 2を紹介する。
ゼロショットイメージネットの分類では、Meta CLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
論文 参考訳(メタデータ) (2025-07-29T17:59:58Z) - Targeted Lexical Injection: Unlocking Latent Cross-Lingual Alignment in Lugha-Llama via Early-Layer LoRA Fine-Tuning [0.0]
LLM(Large Language Models)は目覚ましい能力を示しているが、低リソース言語(LRL)のパフォーマンスは、データ不足と事前トレーニングの過小評価による遅延が多い。
本稿では,新規かつ効率的な微調整法であるTLIについて紹介する。
論文 参考訳(メタデータ) (2025-06-18T12:35:53Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in
Indo-European Languages [68.66827612799577]
ディフルエンシ補正(Disfluency correction, DC)とは、話し言葉からフィラー、繰り返し、訂正などの不適切な要素を取り除き、読みやすく解釈可能なテキストを作成する過程である。
Indo-Europeanの4つの重要な言語(英語、ヒンディー語、ドイツ語、フランス語)を網羅した、高品質な人間の注釈付きDCコーパスを提示する。
最新の機械翻訳(MT)システムと併用した場合,DCはBLEUスコアを平均5.65ポイント増加させることを示す。
論文 参考訳(メタデータ) (2023-10-25T16:32:02Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。