論文の概要: Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study
- arxiv url: http://arxiv.org/abs/2008.13533v1
- Date: Mon, 17 Aug 2020 07:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:50:38.845622
- Title: Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study
- Title(参考訳): 生成モデルはページ品質の教師なし予測因子である:コロッサルスケールによる研究
- Authors: Dara Bahri, Yi Tay, Che Zheng, Donald Metzler, Cliff Brunk, Andrew
Tomkins
- Abstract要約: GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
- 参考スコア(独自算出の注目度): 86.62171568318716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large generative language models such as GPT-2 are well-known for their
ability to generate text as well as their utility in supervised downstream
tasks via fine-tuning. Our work is twofold: firstly we demonstrate via human
evaluation that classifiers trained to discriminate between human and
machine-generated text emerge as unsupervised predictors of "page quality",
able to detect low quality content without any training. This enables fast
bootstrapping of quality indicators in a low-resource setting. Secondly,
curious to understand the prevalence and nature of low quality pages in the
wild, we conduct extensive qualitative and quantitative analysis over 500
million web articles, making this the largest-scale study ever conducted on the
topic.
- Abstract(参考訳): gpt-2のような大規模な生成言語モデルは、テキストを生成する能力や、微調整によるダウンストリームタスクの監督機能で有名である。
まず、人間と機械が生成するテキストを区別するために訓練された分類器が、教師なしの「ページ品質」予測器として出現し、トレーニングなしで品質の低いコンテンツを検出できることを示す。
これにより、低リソース環境における品質指標の高速ブートストラップが可能になる。
第2に,野生における低品質ページの発生状況と本質を理解することに興味のある我々は,5億以上のweb記事に対して広範囲な質的,定量的な分析を行い,この話題に関する最大の研究となった。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QuRating: Selecting High-Quality Data for Training Language Models [69.55617417985809]
本稿では,人間が直感的に知覚するテキストの抽象的品質をキャプチャする事前学習データを選択するQuRatingを紹介する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Language Model as an Annotator: Unsupervised Context-aware Quality
Phrase Generation [20.195149109523314]
LMPhraseは,大規模な事前学習言語モデル(LM)上に構築された,教師なしの高品質なフレーズマイニングフレームワークである。
具体的には,事前学習された言語モデルBERT上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質フレーズを銀ラベルとして抽出する。
一般的な統計ベースや遠方で管理される手法とは対照的に、我々の銀ラベルは、大規模な事前学習言語モデルから派生したもので、LMに含まれる豊富な文脈情報を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-28T20:32:44Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - An evaluation of template and ML-based generation of user-readable text
from a knowledge graph [1.7778609937758323]
これらの誤りのどれが人間による低品質判断と大きく関連しているのかは不明である。
人文の誤りと人文の自然さと質の判断の低さとの間に有意な関連性はなかった。
どちらのアプローチも、知識グラフのための自然言語インターフェースを設計するための実行可能な選択肢であるようだ。
論文 参考訳(メタデータ) (2021-06-06T14:47:19Z) - Sentence Level Human Translation Quality Estimation with Attention-based
Neural Networks [0.30458514384586394]
本稿では,人間の翻訳品質の自動推定にDeep Learning法を用いる方法について検討する。
大規模な人間の注釈付きデータセットの実証結果は、ニューラルモデルが特徴に基づく手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-03-13T16:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。