論文の概要: ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase
Generation
- arxiv url: http://arxiv.org/abs/2101.08382v2
- Date: Fri, 5 Feb 2021 14:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:58:25.974603
- Title: ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase
Generation
- Title(参考訳): parasci: 長いparaphrase生成のための大きな科学的なparaphraseデータセット
- Authors: Qingxiu Dong, Xiaojun Wan, Yue Cao
- Abstract要約: parasciは科学分野で最初の大規模パラフレーズデータセットである。
このデータセットは、ACL(ParaSCI-ACL)から33,981対、arXiv(ParaSCI-arXiv)から316,063対を含む。
- 参考スコア(独自算出の注目度): 78.10924968931249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose ParaSCI, the first large-scale paraphrase dataset in the
scientific field, including 33,981 paraphrase pairs from ACL (ParaSCI-ACL) and
316,063 pairs from arXiv (ParaSCI-arXiv). Digging into characteristics and
common patterns of scientific papers, we construct this dataset though
intra-paper and inter-paper methods, such as collecting citations to the same
paper or aggregating definitions by scientific terms. To take advantage of
sentences paraphrased partially, we put up PDBERT as a general paraphrase
discovering method. The major advantages of paraphrases in ParaSCI lie in the
prominent length and textual diversity, which is complementary to existing
paraphrase datasets. ParaSCI obtains satisfactory results on human evaluation
and downstream tasks, especially long paraphrase generation.
- Abstract(参考訳): 本研究では,ACL(ParaSCI-ACL)の33,981対とarXiv(ParaSCI-arXiv)の316,063対を含む,科学分野で最初の大規模パラフレーズデータセットであるParaSCIを提案する。
論文の特徴と共通パターンを掘り下げて,同一論文に対する引用の収集や科学用語による定義の集約など,論文内および論文間手法を用いて,このデータセットを構築した。
部分的にパラフレーズ化される文を利用するために,一般パラフレーズ発見法としてPDBERTを設置した。
ParaSCIにおけるパラフレーズの主な利点は、既存のパラフレーズデータセットを補完する顕著な長さとテキストの多様性にある。
ParaSCIは人間の評価や下流タスク、特に長いパラフレーズ生成において満足な結果を得る。
関連論文リスト
- MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.293189105900524]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。
XLNetで最高のパフォーマンスモデルでは、マクロF1スコアは78.18%、精度は78.23%である。
論文 参考訳(メタデータ) (2022-03-13T18:23:37Z) - Librarian-in-the-Loop: A Natural Language Processing Paradigm for
Detecting Informal Mentions of Research Data in Academic Literature [1.4190701053683017]
本研究では,研究データセットに対する非公式な言及を識別するヒューマンタスクを支援する自然言語処理パラダイムを提案する。
非公式なデータ発見の作業は現在、大学間政治社会研究コンソーシアム (Inter-University Consortium for Political and Social Research) の図書館員とそのスタッフによって行われている。
論文 参考訳(メタデータ) (2022-03-10T02:11:30Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。