論文の概要: The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution
in Literary Texts
- arxiv url: http://arxiv.org/abs/2204.05836v1
- Date: Tue, 12 Apr 2022 14:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:45:48.004772
- Title: The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution
in Literary Texts
- Title(参考訳): プロジェクトダイアログの新しいコーパス:文学テキストにおける引用属性のデータセット
- Authors: Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst
- Abstract要約: プロジェクト・ダイアロジズム・ノベル・コーパス(英: Project Dialogism Novel Corpus、PDNC)は、英語の文学文の引用の注釈付きデータセットである。
PDNCには、22の長編小説の35,978の引用の注釈が含まれている。
- 参考スコア(独自算出の注目度): 9.621600317647369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Project Dialogism Novel Corpus, or PDNC, an annotated dataset
of quotations for English literary texts. PDNC contains annotations for 35,978
quotations across 22 full-length novels, and is by an order of magnitude the
largest corpus of its kind. Each quotation is annotated for the speaker,
addressees, type of quotation, referring expression, and character mentions
within the quotation text. The annotated attributes allow for a comprehensive
evaluation of models of quotation attribution and coreference for literary
texts.
- Abstract(参考訳): 本稿では,英文テキストの引用の注釈付きデータセットであるproject dialogism novel corpus(pdnc)を提案する。
PDNCには22の長編小説に35,978の引用の注釈があり、その種類の中で最大のコーパスである。
各引用は、話者、宛先、引用の種類、表現の参照、引用テキスト内の文字の言及に対して注釈付けされる。
注釈付き属性は、文学テキストの引用属性とコア推論のモデルに対する包括的な評価を可能にする。
関連論文リスト
- Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Speech-Text Dialog Pre-training for Spoken Dialog Understanding with
Explicit Cross-Modal Alignment [54.8991472306962]
ExpliCiT cRoss-Modal Alignment (SPECTRA) を用いた音声対話理解のための音声テキスト対話事前学習を提案する。
SPECTRAは、最初の音声テキストダイアログ事前学習モデルである。
4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。
論文 参考訳(メタデータ) (2023-05-19T10:37:56Z) - Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文 参考訳(メタデータ) (2023-03-28T14:55:13Z) - Discourse Analysis for Evaluating Coherence in Video Paragraph Captions [99.37090317971312]
ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
論文 参考訳(メタデータ) (2022-01-17T04:23:08Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - DirectQuote: A Dataset for Direct Quotation Extraction and Attribution
in News Articles [6.006936459950188]
本稿では,オンラインメディアから手動で注釈付けされた19,760段落と10,279の直接引用を含むコーパスであるDirectQuoteを紹介する。
提案手法は,複数のシーケンスラベリングモデルをベースラインとして提案し,提案手法をエンド・ツー・エンドで同時抽出・属性付けする手法である。
論文 参考訳(メタデータ) (2021-10-15T02:50:09Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。