論文の概要: CREER: A Large-Scale Corpus for Relation Extraction and Entity
Recognition
- arxiv url: http://arxiv.org/abs/2204.12710v1
- Date: Wed, 27 Apr 2022 05:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:33:54.810889
- Title: CREER: A Large-Scale Corpus for Relation Extraction and Entity
Recognition
- Title(参考訳): CREER:関係抽出とエンティティ認識のための大規模コーパス
- Authors: Yu-Siou Tang and Chung-Hsien Wu
- Abstract要約: CREERデータセットはStanford CoreNLP Annotatorを使用して、ウィキペディアのプレーンテキストからリッチ言語構造をキャプチャする。
このデータセットは広く使われている言語およびセマンティックアノテーションに従い、ほとんどの自然言語処理タスクだけでなくデータセットのスケーリングにも使用できる。
- 参考スコア(独自算出の注目度): 9.54366784050374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the design and use of the CREER dataset, a large corpus annotated
with rich English grammar and semantic attributes. The CREER dataset uses the
Stanford CoreNLP Annotator to capture rich language structures from Wikipedia
plain text. This dataset follows widely used linguistic and semantic
annotations so that it can be used for not only most natural language
processing tasks but also scaling the dataset. This large supervised dataset
can serve as the basis for improving the performance of NLP tasks in the
future.
- Abstract(参考訳): 本稿では、豊富な英語文法と意味属性を付加した大規模なコーパスであるCREERデータセットの設計と使用について述べる。
CREERデータセットはStanford CoreNLPアノテーションを使用して、Wikipediaのプレーンテキストからリッチ言語構造をキャプチャする。
このデータセットは広く使われている言語およびセマンティックアノテーションに従い、ほとんどの自然言語処理タスクだけでなくデータセットのスケーリングにも使用できる。
この大規模な教師付きデータセットは、今後のNLPタスクのパフォーマンス向上の基礎となる。
関連論文リスト
- Unlocking Korean Verbs: A User-Friendly Exploration into the Verb Lexicon [5.358486800301437]
Sejong辞書データセットは、形態学、構文、意味表現を広範囲にカバーしている。
このデータセット内のラベル付き言語構造は、単語とフレーズの関係を明らかにする基盤を形成する。
本稿では,動詞関連情報の収集と統合を目的としたユーザフレンドリーなWebインターフェースを提案する。
論文 参考訳(メタデータ) (2024-10-01T22:03:34Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - What's in a Name? Evaluating Assembly-Part Semantic Knowledge in
Language Models through User-Provided Names in CAD Files [4.387757291346397]
本稿では,設計者がCAD(Computer Aided Design)ソフトウェアで使用する自然言語名が,そのような知識の貴重な情報源であることを示す。
特に、自然言語部分、特徴、文書名の大きなコーパスを抽出し、クリーンにする。
テキストデータコーパスの微調整により、すべてのタスクのパフォーマンスが向上し、テキストデータの価値が示されることを示す。
論文 参考訳(メタデータ) (2023-04-25T12:30:01Z) - Entity Aware Syntax Tree Based Data Augmentation for Natural Language
Understanding [5.02493891738617]
本研究では,木構造,エンティティ・アウェア・シンタクス・ツリー (EAST) を応用した新しいNLPデータ拡張手法を提案する。
我々のEADA技術は、少量の注釈付きデータからEASTを自動的に構築し、インテント検出とスロットフィリングのための多数のトレーニングインスタンスを生成する。
4つのデータセットに対する実験結果から,提案手法は,精度と一般化能力の両方の観点から,既存のデータ拡張手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2022-09-06T07:34:10Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - An Exploratory Study on Utilising the Web of Linked Data for Product
Data Mining [3.7376948366228175]
この研究は、構造化されたデータを利用して、製品分類とリンクに使用される言語リソースを作成する方法を研究するためのeコマース領域に焦点を当てている。
我々は、数億の構造化されたデータポイントをRDF n-quadsの形で処理し、後に言語リソースを作成するために3つの異なる方法で使用される製品関連コーパスの数十万ワードを作成します。
評価の結果,単語の埋め込みは両タスクの精度を向上させる上で最も信頼性が高く一貫した手法であることが示唆された。
論文 参考訳(メタデータ) (2021-09-03T09:58:36Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。