論文の概要: Parsing Early Modern English for Linguistic Search
- arxiv url: http://arxiv.org/abs/2002.10546v1
- Date: Mon, 24 Feb 2020 21:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:55:37.479873
- Title: Parsing Early Modern English for Linguistic Search
- Title(参考訳): 言語検索のための現代英語の構文解析
- Authors: Seth Kulick and Neville Ryant
- Abstract要約: 我々は,NLPの進歩により,歴史的構文の研究に利用可能なデータサイズを大幅に拡大できるかどうかを考察する。
これにより、自動アノテーション付きコーパスによる言語クエリのサービスにおいて、NLPの一般的なツール – ワード埋め込み、タグ付け、パース – が数多く統合される。
我々は10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、POSタグと歴史的英語のコーパスをトレーニングする。
- 参考スコア(独自算出の注目度): 3.927039542429003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the question of whether advances in NLP over the last few
years make it possible to vastly increase the size of data usable for research
in historical syntax. This brings together many of the usual tools in NLP -
word embeddings, tagging, and parsing - in the service of linguistic queries
over automatically annotated corpora. We train a part-of-speech (POS) tagger
and parser on a corpus of historical English, using ELMo embeddings trained
over a billion words of similar text. The evaluation is based on the standard
metrics, as well as on the accuracy of the query searches using the parsed
data.
- Abstract(参考訳): 我々は,過去数年間のNLPの進歩が,歴史的構文の研究に有用なデータサイズを大幅に増加させることを可能にしているかどうかを考察する。
これにより、NLPワードの埋め込み、タグ付け、パースといった一般的なツールが、自動アノテーション付きコーパスによる言語クエリのサービスに集約される。
我々は、10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、歴史的英語のコーパスにPOSタグとパーサをトレーニングする。
評価は、標準メトリクスと、解析されたデータを用いたクエリ検索の精度に基づいて行われる。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。
システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文 参考訳(メタデータ) (2022-05-11T10:29:30Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z) - A Methodology for Creating Question Answering Corpora Using Inverse Data
Annotation [16.914116942666976]
本稿では,構造化データに対する質問応答のためのコーパスを効率的に構築するための新しい手法を提案する。
本研究では,文脈自由文法からOTをランダムに生成する。
提案手法を適用して,大規模な意味解析コーパスであるOTTA(Operation Trees and Token Assignment)を作成する。
論文 参考訳(メタデータ) (2020-04-16T12:50:01Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。