論文の概要: A Study on the Appropriate size of the Mongolian general corpus
- arxiv url: http://arxiv.org/abs/2307.06050v1
- Date: Wed, 12 Jul 2023 10:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:30:11.247826
- Title: A Study on the Appropriate size of the Mongolian general corpus
- Title(参考訳): モンゴル一般コーパスの適切な大きさに関する研究
- Authors: Sunsoo Choi and Ganbat Tsend
- Abstract要約: 本研究では,モンゴルの一般コーパスの適切なサイズを決定するために,Heaps関数とType Token Ratioを用いた。
906,064個のトークンのサンプルコーパスは、新聞政治、経済、社会、文化、スポーツ、世界記事や法律、中・高校の文学教科書、インタビュー記事、ポッドキャストのテキストからなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study aims to determine the appropriate size of the Mongolian general
corpus. This study used the Heaps function and Type Token Ratio to determine
the appropriate size of the Mongolian general corpus. The sample corpus of
906,064 tokens comprised texts from 10 domains of newspaper politics, economy,
society, culture, sports, world articles and laws, middle and high school
literature textbooks, interview articles, and podcast transcripts. First, we
estimated the Heaps function with this sample corpus. Next, we observed changes
in the number of types and TTR values while increasing the number of tokens by
one million using the estimated Heaps function. As a result of observation, we
found that the TTR value hardly changed when the number of tokens exceeded from
39 to 42 million. Thus, we conclude that an appropriate size for a Mongolian
general corpus is from 39 to 42 million tokens.
- Abstract(参考訳): 本研究の目的は,モンゴルの一般コーパスの適切なサイズを決定することである。
本研究はモンゴル一般コーパスの適切なサイズを決定するためにヒープ関数と型トークン比を用いた。
906,064枚のトークンのサンプルコーパスは、新聞政治、経済、社会、文化、スポーツ、世界記事と法律、中・高校文学の教科書、インタビュー記事、ポッドキャストの原稿の10の分野のテキストで構成されていた。
まず,このサンプルコーパスを用いてHeaps関数を推定した。
次に,Heaps関数を用いてトークン数を100万増加させながら,タイプ数とTTR値の変化を観察した。
その結果,トークン数が39万から42万を超えると,TTR値はほとんど変化しないことがわかった。
したがって、モンゴルの一般コーパスの適切なサイズは、39万から42百万のトークンである。
関連論文リスト
- ZhoBLiMP: a Systematic Assessment of Language Models with Linguistic Minimal Pairs in Chinese [18.90198316015052]
ZhoBLiMPは、中国語の言語最小ペアの最も包括的なベンチマークである。
次に、中国のコーパスで異なるサイズ(14M〜1.4B)の20個のLMを訓練し、ZhoBLiMPで14個の既製LCMとともに評価する。
全体としては、中国の文法はおよそ5億のパラメータを持つモデルによって学習され、1つのエポックで1Bトークンで訓練され、さらなるスケーリングのメリットが限定されていることを示している。
論文 参考訳(メタデータ) (2024-11-09T07:16:08Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z) - KoBE: Knowledge-Based Machine Translation Evaluation [20.629986034151344]
本稿では,参照翻訳を必要としない機械翻訳評価の簡易かつ効果的な手法を提案する。
提案手法は,(1) ソース文中のエンティティの言及と,(2) 大規模多言語知識ベースに対する候補翻訳,(2) ソースに含まれるエンティティのリコールを測定することに基づく。
論文 参考訳(メタデータ) (2020-09-23T09:52:28Z) - The Annotation Guideline of LST20 Corpus [0.3161954199291541]
データセットは、使いやすさのためにCoNLL-2003スタイルのフォーマットに準拠している。
大規模では3,164,864語、288,020語、248,962節、74,180文からなる。
3,745件の文書には15のニュースジャンルが注釈付けされている。
論文 参考訳(メタデータ) (2020-08-12T01:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。