論文の概要: Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study
- arxiv url: http://arxiv.org/abs/2008.13533v1
- Date: Mon, 17 Aug 2020 07:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:50:38.845622
- Title: Generative Models are Unsupervised Predictors of Page Quality: A
Colossal-Scale Study
- Title(参考訳): 生成モデルはページ品質の教師なし予測因子である:コロッサルスケールによる研究
- Authors: Dara Bahri, Yi Tay, Che Zheng, Donald Metzler, Cliff Brunk, Andrew
Tomkins
- Abstract要約: GPT-2のような大規模な生成言語モデルは、テキストを生成する能力で有名である。
ページ品質」の教師なし予測器が出現し、トレーニングなしで品質の低いコンテンツを検出することができることを示す。
われわれは5億件以上のウェブ記事の質的、定量的な分析を行い、このトピックについて史上最大規模の研究を行った。
- 参考スコア(独自算出の注目度): 86.62171568318716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large generative language models such as GPT-2 are well-known for their
ability to generate text as well as their utility in supervised downstream
tasks via fine-tuning. Our work is twofold: firstly we demonstrate via human
evaluation that classifiers trained to discriminate between human and
machine-generated text emerge as unsupervised predictors of "page quality",
able to detect low quality content without any training. This enables fast
bootstrapping of quality indicators in a low-resource setting. Secondly,
curious to understand the prevalence and nature of low quality pages in the
wild, we conduct extensive qualitative and quantitative analysis over 500
million web articles, making this the largest-scale study ever conducted on the
topic.
- Abstract(参考訳): gpt-2のような大規模な生成言語モデルは、テキストを生成する能力や、微調整によるダウンストリームタスクの監督機能で有名である。
まず、人間と機械が生成するテキストを区別するために訓練された分類器が、教師なしの「ページ品質」予測器として出現し、トレーニングなしで品質の低いコンテンツを検出できることを示す。
これにより、低リソース環境における品質指標の高速ブートストラップが可能になる。
第2に,野生における低品質ページの発生状況と本質を理解することに興味のある我々は,5億以上のweb記事に対して広範囲な質的,定量的な分析を行い,この話題に関する最大の研究となった。
関連論文リスト
- Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric [56.73624246192218]
我々は人間活動型AI生成ビデオ(AGV)の先駆的な研究を行っている。
視覚的品質評価と意味歪みの同定に焦点をあてる。
我々は,人間活動AGVの質を自動解析するために,AI生成人活動ビデオ品質指標(GHVQ)という客観的評価指標を開発した。
論文 参考訳(メタデータ) (2024-11-25T17:58:43Z) - Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts [0.0]
AIフラグメントを備えた膨大な数の検出器とコレクションが出現し、いくつかの検出方法は認識品質を99.9%まで向上させた。
検出器は実際に非常に信頼性が高いのか、あるいは評価データセットの質が低いことから高いベンチマークスコアを得るのか?
本稿では,AI生成コンテンツ検出専用のコンペからのデータセットを体系的にレビューし,AI生成フラグメントを含むデータセットの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:57Z) - Balancing Label Quantity and Quality for Scalable Elicitation [2.2143065226946423]
本研究では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。
教師付き微調整を用いた事前学習モデルから分類知識を抽出する3つの方法について検討した。
固定ラベル付予算において,教師付き微調整の精度を最大5ポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T04:39:58Z) - Exploring Rich Subjective Quality Information for Image Quality Assessment in the Wild [66.40314964321557]
我々は,リッチIQAという新しいIQA手法を提案し,MOSを超えるリッチな主観的評価情報を探索し,野生における画像品質を予測する。
コンボリューショナル・ビジョン・トランスフォーマー(CvT)の強力な特徴表現能力を活用し、人間の脳の短期記憶機構と長期記憶機構を模倣する3段階画像品質予測ネットワークである。
RichIQAは、リッチな主観的評価ラベルを持つ複数の大規模IQAデータベースにおいて、最先端の競合より優れている。
論文 参考訳(メタデータ) (2024-09-09T12:00:17Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Sentence Level Human Translation Quality Estimation with Attention-based
Neural Networks [0.30458514384586394]
本稿では,人間の翻訳品質の自動推定にDeep Learning法を用いる方法について検討する。
大規模な人間の注釈付きデータセットの実証結果は、ニューラルモデルが特徴に基づく手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-03-13T16:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。