論文の概要: PARADE: A New Dataset for Paraphrase Identification Requiring Computer
Science Domain Knowledge
- arxiv url: http://arxiv.org/abs/2010.03725v1
- Date: Thu, 8 Oct 2020 02:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:57:37.185759
- Title: PARADE: A New Dataset for Paraphrase Identification Requiring Computer
Science Domain Knowledge
- Title(参考訳): PARADE: コンピュータサイエンス分野の知識を必要とするパラフレーズ識別のための新しいデータセット
- Authors: Yun He, Zhuoer Wang, Yin Zhang, Ruihong Huang and James Caverlee
- Abstract要約: PARADEには、語彙や構文レベルではほとんど重複しないパラフレーズが含まれているが、コンピュータサイエンスのドメイン知識に基づいた意味論的に等価である。
実験により、最先端のニューラルモデルと熟練していない人間のアノテータの両方がPARADEの性能が劣っていることが示された。
- 参考スコア(独自算出の注目度): 35.66853329610162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new benchmark dataset called PARADE for paraphrase
identification that requires specialized domain knowledge. PARADE contains
paraphrases that overlap very little at the lexical and syntactic level but are
semantically equivalent based on computer science domain knowledge, as well as
non-paraphrases that overlap greatly at the lexical and syntactic level but are
not semantically equivalent based on this domain knowledge. Experiments show
that both state-of-the-art neural models and non-expert human annotators have
poor performance on PARADE. For example, BERT after fine-tuning achieves an F1
score of 0.709, which is much lower than its performance on other paraphrase
identification datasets. PARADE can serve as a resource for researchers
interested in testing models that incorporate domain knowledge. We make our
data and code freely available.
- Abstract(参考訳): 専門的なドメイン知識を必要とするパラフレーズ識別のための新しいベンチマークデータセット PARADE を提案する。
PARADEには、語彙や構文レベルではほとんど重複しないが、コンピュータ科学のドメイン知識に基づいて意味的に等価であるパラフレーズや、語彙や構文レベルで大きく重複するが、このドメイン知識に基づいて意味的に等価ではないノンパラフレーズが含まれている。
実験により、最先端のニューラルモデルと熟練していない人間のアノテータの両方がPARADEの性能が劣っていることが示された。
例えば、微調整後のBERTではF1スコアは0.709であり、他のパラフレーズ識別データセットよりもはるかに低い。
PARADEはドメイン知識を組み込んだモデルのテストに関心を持つ研究者のためのリソースとして機能する。
データとコードは自由に利用できます。
関連論文リスト
- SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。
提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。
科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-28T12:59:06Z) - Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain [3.928604516640069]
ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
論文 参考訳(メタデータ) (2021-06-14T20:26:19Z) - A Novel Deep Learning Method for Textual Sentiment Analysis [3.0711362702464675]
本稿では,階層的注意層を統合した畳み込みニューラルネットワークを提案する。
提案モデルでは,分類精度が高く,情報的単語を抽出できる。
インクリメンタル転送学習を適用すると、分類性能が大幅に向上します。
論文 参考訳(メタデータ) (2021-02-23T12:11:36Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Delexicalized Paraphrase Generation [7.504832901086077]
パラフレーズ化のためのニューラルモデルを提案し,デレクシカル化文を生成するよう訓練する。
我々は、各入力に複数の参照パラフレーズをペア付けしたトレーニングデータを作成することで、これを実現する。
生成したパラフレーズが高品質であることが実証的に示され, 実発話における1.29%の正確な一致が得られた。
論文 参考訳(メタデータ) (2020-12-04T18:28:30Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - Automatic Discovery of Novel Intents & Domains from Text Utterances [18.39942131996558]
本稿では,ラベルのない大量のデータから新しいドメインや意図を自動的に発見する新しいフレームワークADVINを提案する。
ADVINは3つのベンチマークデータセットのベースラインと、商用音声処理エージェントからの実際のユーザ発話を大きく上回る。
論文 参考訳(メタデータ) (2020-05-22T00:47:10Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。