論文の概要: PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing
Data Collection
- arxiv url: http://arxiv.org/abs/2201.06573v1
- Date: Mon, 17 Jan 2022 18:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:11:12.249252
- Title: PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing
Data Collection
- Title(参考訳): perpada:暗黙のクラウドソーシングデータ収集に基づくペルシャのパラフレーズデータセット
- Authors: Salar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari
- Abstract要約: PerPaDaは、ユーザの入力からプラジャリズム検出システムで収集されるペルシャのパラフレーズデータセットである。
ユーザは、分析のために原稿をパラフレーズ化して再送信することで、文書に再使用するケースを隠そうとします。
コンパイルされたデータセットには、パラフレーズの2446のインスタンスが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce PerPaDa, a Persian paraphrase dataset that is
collected from users' input in a plagiarism detection system. As an implicit
crowdsourcing experience, we have gathered a large collection of original and
paraphrased sentences from Hamtajoo; a Persian plagiarism detection system, in
which users try to conceal cases of text re-use in their documents by
paraphrasing and re-submitting manuscripts for analysis. The compiled dataset
contains 2446 instances of paraphrasing. In order to improve the overall
quality of the collected data, some heuristics have been used to exclude
sentences that don't meet the proposed criteria. The introduced corpus is much
larger than the available datasets for the task of paraphrase identification in
Persian. Moreover, there is less bias in the data compared to the similar
datasets, since the users did not try some fixed predefined rules in order to
generate similar texts to their original inputs.
- Abstract(参考訳): 本稿では, ユーザの入力から収集したペルシャ語のパラフレーズデータセットPerPaDaを, プラジャリズム検出システムで紹介する。
暗黙的なクラウドソーシング体験として,ハンタジョの原文およびパラフレーズ文を多数収集した。ハンタジョはペルシアの盗作検出システムで,ユーザが文書に再使用した事例をパラフレーズで隠蔽し,分析のために原稿を再提出する。
コンパイルされたデータセットには、パラフレーズの2446のインスタンスが含まれている。
収集されたデータの全体的な品質を改善するために、提案された基準を満たさない文を除外するためにいくつかのヒューリスティックが用いられてきた。
導入されたコーパスは、ペルシア語でパラフレーズ識別を行うための利用可能なデータセットよりもはるかに大きい。
さらに、ユーザは、元の入力に類似したテキストを生成するために、いくつかの固定された事前定義ルールを試さなかったため、データに類似したデータセットに比べてバイアスが少ない。
関連論文リスト
- Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Unsupervised Bias Detection in College Student Newspapers [0.0]
本稿では,複雑なアーカイブサイトをスクレイピングするフレームワークを導入し,23,154項目からなる14の学生論文のデータセットを生成する。
このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。
結果は、政治的に課金された単語と制御された単語に基づいて計算され、どのように結論が導き出されるかを示す。
論文 参考訳(メタデータ) (2023-09-11T06:51:09Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。