論文の概要: AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
- arxiv url: http://arxiv.org/abs/2509.22996v1
- Date: Fri, 26 Sep 2025 23:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.972758
- Title: AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts
- Title(参考訳): AI BrownとAI Koditex: 従来の英語とチェコ語のコーパスと比較可能なLLM生成コーパス
- Authors: Jiří Milička, Anna Marklová, Václav Cvrček,
- Abstract要約: 本稿では,大言語モデル(LLM)を用いた英語とチェコ語のテキストのコーパスについて述べる。
その動機は、人文テキストとLLM生成テキストを言語的に比較するためのリソースを作成することである。
これらのリソースが多言語であり、トピック、著者、テキストタイプに富んでいることが強調された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents two corpora of English and Czech texts generated with large language models (LLMs). The motivation is to create a resource for comparing human-written texts with LLM-generated text linguistically. Emphasis was placed on ensuring these resources are multi-genre and rich in terms of topics, authors, and text types, while maintaining comparability with existing human-created corpora. These generated corpora replicate reference human corpora: BE21 by Paul Baker, which is a modern version of the original Brown Corpus, and Koditex corpus that also follows the Brown Corpus tradition but in Czech. The new corpora were generated using models from OpenAI, Anthropic, Alphabet, Meta, and DeepSeek, ranging from GPT-3 (davinci-002) to GPT-4.5, and are tagged according to the Universal Dependencies standard (i.e., they are tokenized, lemmatized, and morphologically and syntactically annotated). The subcorpus size varies according to the model used (the English part contains on average 864k tokens per model, 27M tokens altogether, the Czech partcontains on average 768k tokens per model, 21.5M tokens altogether). The corpora are freely available for download under the CC BY 4.0 license (the annotated data are under CC BY-NC-SA 4.0 licence) and are also accessible through the search interface of the Czech National Corpus.
- Abstract(参考訳): 本稿では,大きな言語モデル(LLM)で生成された英語とチェコ語の2つのコーパスについて述べる。
その動機は、人文テキストとLLM生成テキストを言語的に比較するためのリソースを作成することである。
既存の人間によるコーパスとの互換性を維持しつつ、これらのリソースが多言語でリッチなトピック、著者、テキストタイプであることを保証することに重点が置かれた。
オリジナルのブラウン・コーパスの現代版であるポール・ベイカーによるBE21と、ブラウン・コーパスの伝統に従ってチェコ語で書かれたKoditex corpusである。
新しいコーパスは、OpenAI、Anthropic、Alphabet、Meta、DeepSeekのモデルを用いて生成され、GPT-3 (davinci-002)からGPT-4.5までの範囲で、Universal Dependencies標準に従ってタグ付けされている。
サブコーパスのサイズは使用するモデルによって異なる(英語の部分は平均864kトークン、27Mトークン、チェコの部品は平均768kトークン、合計21.5Mトークン)。
コーパスはCC BY 4.0ライセンス(注釈付きデータはCC BY-NC-SA 4.0ライセンス)で無料でダウンロードできる。
関連論文リスト
- Benchmark of stylistic variation in LLM-generated texts [0.0]
本研究では,人間によって書かれたテキストと,大規模言語モデル(LLM)によって作成された同等のテキストのレジスタ変動について検討する。
同様の分析は、AI-Koditexコーパスとチェコの多次元モデルを用いてチェコで複製される。
論文 参考訳(メタデータ) (2025-09-12T12:12:20Z) - Dialectal and Low-Resource Machine Translation for Aromanian [44.99833362998488]
本稿では,英語,ルーマニア語,ルーマニア語をサポートするニューラルマシン翻訳システムの構築プロセスについて述べる。
主な貢献は、79,000の文対からなるルーマニアとルーマニアの最も広範な平行コーパスの作成である。
そこで本研究では,テキストマイニングと自動評価のための言語に依存しない文埋め込みモデルを含む補助ツール群を提案する。
論文 参考訳(メタデータ) (2024-10-23T10:00:23Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。