論文の概要: Corpora Compared: The Case of the Swedish Gigaword & Wikipedia Corpora
- arxiv url: http://arxiv.org/abs/2011.03281v1
- Date: Fri, 6 Nov 2020 11:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:13:31.517357
- Title: Corpora Compared: The Case of the Swedish Gigaword & Wikipedia Corpora
- Title(参考訳): Corporaの比較:スウェーデンのGigaword & Wikipedia Corporaを例に
- Authors: Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki
- Abstract要約: 与えられた言語に対する異なるソースデータからの埋め込みの性能の違いは、データサイズ以外の要因による可能性があることを示す。
The Gigaword and Wikipedia, in analogy (intrinsic) test and discover that the embeddings from the Wikipedia corpus are outperform of the Gigaword corpus。
- 参考スコア(独自算出の注目度): 1.6507910904669727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show that the difference in performance of embeddings from
differently sourced data for a given language can be due to other factors
besides data size. Natural language processing (NLP) tasks usually perform
better with embeddings from bigger corpora. However, broadness of covered
domain and noise can play important roles. We evaluate embeddings based on two
Swedish corpora: The Gigaword and Wikipedia, in analogy (intrinsic) tests and
discover that the embeddings from the Wikipedia corpus generally outperform
those from the Gigaword corpus, which is a bigger corpus. Downstream tests will
be required to have a definite evaluation.
- Abstract(参考訳): 本研究では,特定の言語に対する異なるソースデータからの埋め込みの性能の違いは,データサイズ以外の要因による可能性があることを示す。
自然言語処理(NLP)タスクは、通常、より大きなコーパスからの埋め込みでよりよく機能する。
しかし、カバードメインとノイズの広さは重要な役割を果たす可能性がある。
スウェーデンではgigaword と wikipedia の2つのコーパスに基づいて埋め込みを評価し,wikipedia コーパスからの埋め込みがより大きなコーパスである gigaword コーパスの埋め込みよりも一般的に優れていることを発見した。
下流テストには明確な評価が必要である。
関連論文リスト
- GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Corpus Similarity Measures Remain Robust Across Diverse Languages [0.0]
本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
論文 参考訳(メタデータ) (2022-06-09T08:17:16Z) - JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [31.203776611871863]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (2022-02-25T10:52:00Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Potential Idiomatic Expression (PIE)-English: Corpus for Classes of
Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。
このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文 参考訳(メタデータ) (2021-04-25T13:05:29Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Revisiting Low Resource Status of Indian Languages in Machine
Translation [43.62422999765863]
インド語の機械翻訳性能は、大規模多言語文整列コーパスとロバストベンチマークの欠如により妨げられている。
我々は、インド言語ニューラルマシン翻訳(NMT)システムのためのこのようなコーパスを得るために、自動化されたフレームワークを提供し、分析する。
論文 参考訳(メタデータ) (2020-08-11T17:05:13Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。