論文の概要: Know thy corpus! Robust methods for digital curation of Web corpora
- arxiv url: http://arxiv.org/abs/2003.06389v1
- Date: Fri, 13 Mar 2020 17:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:51:12.268089
- Title: Know thy corpus! Robust methods for digital curation of Web corpora
- Title(参考訳): コーパスを知りなさい!
webコーパスのデジタルキュレーションのためのロバストな手法
- Authors: Serge Sharoff
- Abstract要約: 本稿では,Webコーパスのデジタルキュレーションのための新しいフレームワークを提案する。
これはそれらの構成や語彙などのパラメータを頑健に推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel framework for digital curation of Web corpora in
order to provide robust estimation of their parameters, such as their
composition and the lexicon. In recent years language models pre-trained on
large corpora emerged as clear winners in numerous NLP tasks, but no proper
analysis of the corpora which led to their success has been conducted. The
paper presents a procedure for robust frequency estimation, which helps in
establishing the core lexicon for a given corpus, as well as a procedure for
estimating the corpus composition via unsupervised topic models and via
supervised genre classification of Web pages. The results of the digital
curation study applied to several Web-derived corpora demonstrate their
considerable differences. First, this concerns different frequency bursts which
impact the core lexicon obtained from each corpus. Second, this concerns the
kinds of texts they contain. For example, OpenWebText contains considerably
more topical news and political argumentation in comparison to ukWac or
Wikipedia. The tools and the results of analysis have been released.
- Abstract(参考訳): 本稿では,webコーパスのコンポジションやレキシコンなどのパラメータのロバストな推定を実現するために,webコーパスのデジタルキュレーションのための新しい枠組みを提案する。
近年,大規模コーパス上で事前学習した言語モデルは,多くのNLPタスクにおいて明確な勝者として出現しているが,その成功に繋がるコーパスの適切な分析は行われていない。
本稿では,与えられたコーパスのコアレキシコンの確立を支援するロバストな周波数推定手法と,非教師付きトピックモデルと教師付きジャンル分類によるコーパス構成の推定手法を提案する。
いくつかの Web 由来コーパスに適用したデジタルキュレーション研究の結果は,その大きな違いを示している。
まず、各コーパスから得られるコアレキシコンに影響を与える異なる周波数バーストに関する。
第2に、それが持つテキストの種類に関するものです。
例えば、OpenWebText は ukWac や Wikipedia と比較して、トピック的なニュースや政治的議論がかなり多い。
ツールと分析結果がリリースされた。
関連論文リスト
- New Textual Corpora for Serbian Language Modeling [0.0]
古いコーパスと新しいコーパスの両方のユニークさは、周波数ベースの幾何的手法によってアクセスされる。
本稿では,セルビア全大学における博士論文リポジトリに保管されている博士論文に基づく新しい高品質コーパス,および同ソースからの同時翻訳コーパスの3つの新しいコーパスを紹介する。
論文 参考訳(メタデータ) (2024-05-15T11:05:16Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Graph-based Topic Extraction from Vector Embeddings of Text Documents:
Application to a Corpus of News Articles [0.0]
自然言語処理の強力なベクトル埋め込みと,マルチスケールグラフ分割のツールを組み合わせた,教師なしのフレームワークを提案する。
グラフベースのクラスタリングの利点を,他の一般的なクラスタリングやトピックモデリング手法とエンドツーエンド比較によって示す。
この研究は2016年の大統領選挙の際、アメリカのニュース記事のコーパスを分析して紹介された。
論文 参考訳(メタデータ) (2020-10-28T16:20:05Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。