論文の概要: AI-Associated Lexical Shifts Across 34 Languages: Cross-Lingual Convergence and Diachronic Uptake in News Writing
- arxiv url: http://arxiv.org/abs/2605.25358v1
- Date: Mon, 25 May 2026 02:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.2521
- Title: AI-Associated Lexical Shifts Across 34 Languages: Cross-Lingual Convergence and Diachronic Uptake in News Writing
- Title(参考訳): AIによる34言語間の語彙シフト:ニュース執筆における言語間収束とダイアクロニック取り込み
- Authors: Thomas Stephan Juzek,
- Abstract要約: 我々はこの作業をWMT News Crawl corpusの34言語に拡張する。
各言語について、ログの頻度比を用いて、ランク付けされたAI過剰な補題を導出する。
我々は言語間セマンティックコンバージェンスをかなり見つけている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI-associated lexical shifts have been documented mainly in Scientific English. We extend this work to 34 languages in the WMT News Crawl corpus, refining a split-halves continuation diagnostic that compares GPT-4.1 continuations with matched human gold-standard text. For each language, we derive ranked AI-overused lemmas using log prevalence ratios. We find substantial cross-lingual semantic convergence: semantically related concepts recur across typologically diverse languages, with 'emphasize'-type verbs appearing in 24 of 34 languages. Embedding-based and manual analyses support this pattern. We also examine diachronic uptake in news writing before and after ChatGPT's release. Tracking each language's top 20 AI-overused items, we find prevalence increases in 26 of 34 languages from 2020-2021 to 2023-2024, with a mean change of +15.1%, whilst matched baseline words show no comparable increase (-4.5%). In 10 languages with longer historical coverage, longitudinal analyses show post-2022 increases that exceed the modest shifts observed in earlier periods, though with smaller effect sizes than in Scientific English. We validate our approach extensively, including across seeds, model variants, data sizes, model families, and more. Our findings are consistent with the view that AI-associated lexical preferences extend beyond English and may exert cross-lingual homogenising pressure on global language use.
- Abstract(参考訳): AIに関連した語彙シフトは、主にサイエンティフィック・イングリッシュで記録されている。
我々はこの作業をWMT News Crawl corpusの34言語に拡張し、GPT-4.1継続と一致したヒトゴールドスタンダードテキストを比較した分割ハーフ継続診断を精査する。
各言語について、ログの頻度比を用いて、ランク付けされたAI過剰な補題を導出する。
意味的関連概念は,34言語中24言語に「強調」型動詞が出現し,類型的に多様な言語にまたがって再帰する。
埋め込みベースの手動分析は、このパターンをサポートする。
また,ChatGPTリリース前後のニュース記事のダイアクロニックな取り込みについても検討した。
それぞれの言語のトップ20のAI過剰アイテムを追跡すると、2020-2021年から2023-2024にかけての34言語中26言語が増加し、平均は+15.1%となり、マッチしたベースライン語は同等に増加していない(4.5%)。
より長い歴史的カバレッジを持つ10の言語では、2022年以降の経年変化は、科学英語よりも小さいが、初期の期間で観測された最も穏やかな変化より多い。
私たちは、種、モデル変種、データサイズ、モデルファミリーなど、我々のアプローチを広範囲に検証しています。
我々の知見は、AIに関連する語彙的嗜好が英語を超えて広がり、グローバル言語の使用に対して言語間均質化圧力を及ぼす可能性があるという見解と一致している。
関連論文リスト
- Subword-Based Comparative Linguistics across 242 Languages Using Wikipedia Glottosets [0.1682277069379282]
サブワードに基づく手法を用いて,242のラテン文字言語とキリル文字言語の大規模比較研究を行った。
提案手法では,ウィキペディアのランクに基づく単語ベクトルを用いて語彙,語彙の発散,言語的類似度を大規模に解析する。
論文 参考訳(メタデータ) (2026-01-26T18:55:28Z) - Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains [41.44674318564781]
オーサシップ表現(AR)学習は,オーサシップ帰属タスクにおいて高いパフォーマンスを示している。
本稿では,2つの重要なイノベーションを取り入れた多言語AR学習手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
論文 参考訳(メタデータ) (2025-09-20T04:43:24Z) - Model Misalignment and Language Change: Traces of AI-Associated Language in Unscripted Spoken English [0.0]
近年では、特に科学や教育において、文章言語は言葉の使用に顕著な変化を経験している。
モデルアウトプットと対象のオーディエンスノルムの相違は、ミスアライメントの一形態と見なすことができる。
我々は、会話科学と技術ポッドキャストから引き出された、未記述の音声言語から2210万語のデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-01T00:47:33Z) - Detecting Effects of AI-Mediated Communication on Language Complexity and Sentiment [0.36832029288386137]
われわれは2020年の970,919件のツイート(前ChatGPT)と2024年の2万件のツイートを比較した。
Flesch-Kincaidの可読性と極性スコアの組み合わせを用いて,テキストの複雑さと感情の変化を分析した。
論文 参考訳(メタデータ) (2025-04-28T08:01:38Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。