論文の概要: The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution
in Literary Texts
- arxiv url: http://arxiv.org/abs/2204.05836v1
- Date: Tue, 12 Apr 2022 14:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:45:48.004772
- Title: The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution
in Literary Texts
- Title(参考訳): プロジェクトダイアログの新しいコーパス:文学テキストにおける引用属性のデータセット
- Authors: Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst
- Abstract要約: プロジェクト・ダイアロジズム・ノベル・コーパス(英: Project Dialogism Novel Corpus、PDNC)は、英語の文学文の引用の注釈付きデータセットである。
PDNCには、22の長編小説の35,978の引用の注釈が含まれている。
- 参考スコア(独自算出の注目度): 9.621600317647369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Project Dialogism Novel Corpus, or PDNC, an annotated dataset
of quotations for English literary texts. PDNC contains annotations for 35,978
quotations across 22 full-length novels, and is by an order of magnitude the
largest corpus of its kind. Each quotation is annotated for the speaker,
addressees, type of quotation, referring expression, and character mentions
within the quotation text. The annotated attributes allow for a comprehensive
evaluation of models of quotation attribution and coreference for literary
texts.
- Abstract(参考訳): 本稿では,英文テキストの引用の注釈付きデータセットであるproject dialogism novel corpus(pdnc)を提案する。
PDNCには22の長編小説に35,978の引用の注釈があり、その種類の中で最大のコーパスである。
各引用は、話者、宛先、引用の種類、表現の参照、引用テキスト内の文字の言及に対して注釈付けされる。
注釈付き属性は、文学テキストの引用属性とコア推論のモデルに対する包括的な評価を可能にする。
関連論文リスト
- Identifying Speakers and Addressees of Quotations in Novels with Prompt Learning [5.691280935924612]
そこで本研究では,微調整事前学習モデルに基づく話者とアドレナ識別のための学習手法を提案する。
中国語と英語の両方のデータセットを用いた実験は,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2024-08-18T12:19:18Z) - Improving Quotation Attribution with Fictional Character Embeddings [11.259583037191772]
本稿では,文字のグローバルなスタイリスティックな情報をエンコードする文字埋め込みにより,人気のある引用帰属システムであるBookNLPを提案する。
提案するグローバル文字埋め込みとBookNLPの文脈情報を組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上することを示す。
論文 参考訳(メタデータ) (2024-06-17T09:46:35Z) - Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - Speech-Text Dialog Pre-training for Spoken Dialog Understanding with
Explicit Cross-Modal Alignment [54.8991472306962]
ExpliCiT cRoss-Modal Alignment (SPECTRA) を用いた音声対話理解のための音声テキスト対話事前学習を提案する。
SPECTRAは、最初の音声テキストダイアログ事前学習モデルである。
4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。
論文 参考訳(メタデータ) (2023-05-19T10:37:56Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - DirectQuote: A Dataset for Direct Quotation Extraction and Attribution
in News Articles [6.006936459950188]
本稿では,オンラインメディアから手動で注釈付けされた19,760段落と10,279の直接引用を含むコーパスであるDirectQuoteを紹介する。
提案手法は,複数のシーケンスラベリングモデルをベースラインとして提案し,提案手法をエンド・ツー・エンドで同時抽出・属性付けする手法である。
論文 参考訳(メタデータ) (2021-10-15T02:50:09Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。