論文の概要: Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System
- arxiv url: http://arxiv.org/abs/2003.02955v1
- Date: Thu, 5 Mar 2020 22:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:09:00.111595
- Title: Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System
- Title(参考訳): 単語識別とパラフレーズシステムを用いた学術書記・評価のためのリソースの自動コンパイル
- Authors: Seid Muhie Yimam and Gopalakrishnan Venkatesh and John Sie Yuen Lee
and Chris Biemann
- Abstract要約: 学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
- 参考スコア(独自算出の注目度): 24.42822218256954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first approach to automatically building resources for
academic writing. The aim is to build a writing aid system that automatically
edits a text so that it better adheres to the academic style of writing. On top
of existing academic resources, such as the Corpus of Contemporary American
English (COCA) academic Word List, the New Academic Word List, and the Academic
Collocation List, we also explore how to dynamically build such resources that
would be used to automatically identify informal or non-academic words or
phrases. The resources are compiled using different generic approaches that can
be extended for different domains and languages. We describe the evaluation of
resources with a system implementation. The system consists of an informal word
identification (IWI), academic candidate paraphrase generation, and paraphrase
ranking components. To generate candidates and rank them in context, we have
used the PPDB and WordNet paraphrase resources. We use the Concepts in Context
(CoInCO) "All-Words" lexical substitution dataset both for the informal word
identification and paraphrase generation experiments. Our informal word
identification component achieves an F-1 score of 82%, significantly
outperforming a stratified classifier baseline. The main contribution of this
work is a domain-independent methodology to build targeted resources for
writing aids.
- Abstract(参考訳): 学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
現代アメリカ英語コーパス(coca)の学術用語リスト、新しい学術用語リスト、学術コロケーションリストといった既存の学術資料に加えて、非公式または非学術用語やフレーズを自動的に識別するためのリソースを動的に構築する方法についても検討する。
リソースは異なるドメインや言語に拡張可能な、異なるジェネリックアプローチを使ってコンパイルされる。
本稿では,システム実装による資源評価について述べる。
このシステムは、非公式な単語識別(IWI)、学術的候補パラフレーズ生成、およびパラフレーズランキングコンポーネントから構成される。
候補を生成し、文脈でランク付けするために、PPDBとWordNetのパラフレーズリソースを使用しました。
文脈における概念 (CoInCO) "オールワード (All-Words)" 語彙置換データセットを非公式な単語識別とパラフレーズ生成実験に使用する。
非公式の単語識別コンポーネントは82%のf-1スコアを達成し,階層化分類器ベースラインを著しく上回っている。
この研究の主な貢献は、補助書を書くためのターゲットとなるリソースを構築するためのドメインに依存しない方法論である。
関連論文リスト
- Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Dual Attention Model for Citation Recommendation [7.244791479777266]
我々は「引用レコメンデーションのためのデュアルアテンションモデル」と呼ばれる新しい埋め込み型ニューラルネットワークを提案する。
ニューラルネットワークは、3つの入力(ローカルコンテキストワード、セクション、構造コンテキスト)の埋め込みと、コンテキストに現れる対象の引用との類似性を最大化するように設計されている。
論文 参考訳(メタデータ) (2020-10-01T02:41:47Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Detecting New Word Meanings: A Comparison of Word Embedding Models in
Spanish [1.5356167668895644]
意味的ネオロジズム(英: Semantic neologisms, SN)は、その形態を維持しつつ、新しい意味を持つ単語である。
SNを半自動で検出するために,以下の戦略の組み合わせを実装したシステムを開発した。
本稿では,Word2Vec,Sense2Vec,FastTextという単語埋め込みモデルについて検討する。
論文 参考訳(メタデータ) (2020-01-12T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。