論文の概要: Improving Quotation Attribution with Fictional Character Embeddings
- arxiv url: http://arxiv.org/abs/2406.11368v1
- Date: Mon, 17 Jun 2024 09:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:31:23.224204
- Title: Improving Quotation Attribution with Fictional Character Embeddings
- Title(参考訳): 図形文字埋め込みによる引用属性の改善
- Authors: Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara,
- Abstract要約: 我々は,文字のグローバルな情報をエンコードする文字埋め込みを用いた,人気のある引用帰属システムであるBookNLPを提案する。
提案するグローバルキャラクタ埋め込みにより,アナフォリックおよび暗黙的引用に対する話者識別が向上し,最先端のパフォーマンスに達することを示す。
- 参考スコア(独自算出の注目度): 11.259583037191772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally attribute utterances of direct speech to their speaker in literary works. When attributing quotes, we process contextual information but also access mental representations of characters that we build and revise throughout the narrative. Recent methods to automatically attribute such utterances have explored simulating human logic with deterministic rules or learning new implicit rules with neural networks when processing contextual information. However, these systems inherently lack \textit{character} representations, which often leads to errors on more challenging examples of attribution: anaphoric and implicit quotes. In this work, we propose to augment a popular quotation attribution system, BookNLP, with character embeddings that encode global information of characters. To build these embeddings, we create DramaCV, a corpus of English drama plays from the 15th to 20th century focused on Character Verification (CV), a task similar to Authorship Verification (AV), that aims at analyzing fictional characters. We train a model similar to the recently proposed AV model, Universal Authorship Representation (UAR), on this dataset, showing that it outperforms concurrent methods of characters embeddings on the CV task and generalizes better to literary novels. Then, through an extensive evaluation on 22 novels, we show that combining BookNLP's contextual information with our proposed global character embeddings improves the identification of speakers for anaphoric and implicit quotes, reaching state-of-the-art performance. Code and data will be made publicly available.
- Abstract(参考訳): 人間は自然に、文学作品において直接演説の発声を話者に与えている。
引用を引用する際、文脈情報を処理するだけでなく、物語全体を通して構築し、修正するキャラクターの精神的表現にもアクセスする。
このような発話を自動的に属性付けする最近の手法は、人間の論理を決定論的規則でシミュレートするか、文脈情報を処理する際にニューラルネットワークで新しい暗黙的な規則を学習するかを検討した。
しかし、これらのシステムは本質的に \textit{character} 表現を欠いているため、帰属のより困難な例、すなわちアナフォリックな引用や暗黙的な引用の誤りにつながることが多い。
本研究では,文字のグローバルな情報をエンコードする文字埋め込みを組み込んだ,人気のある引用帰属システムであるBookNLPを提案する。
これらの埋め込みを構築するため、15世紀から20世紀にかけてのイギリスのドラマ劇のコーパスであるDramaCVを製作し、架空のキャラクターを分析することを目的としたオーサシップ検証(AV)に似たタスクであるキャラクタ検証(CV)に焦点を当てた。
本稿では,最近提案されたAVモデルであるUniversal Authorship Representation (UAR) に類似したモデルをこのデータセットでトレーニングし,CVタスクへの文字埋め込みの同時手法よりも優れており,文芸小説の一般化に優れることを示す。
そこで本研究では,22冊の小説を広範囲に評価することにより,本書の文脈情報とグローバルな文字埋め込みを組み合わせることで,アナフォリックおよび暗黙の引用に対する話者の識別が向上し,最先端のパフォーマンスに達することを示す。
コードとデータは公開されます。
関連論文リスト
- CHATTER: A Character Attribution Dataset for Narrative Understanding [31.540540919042154]
我々はChatterのサブセットであるChatterEvalを人間のアノテーションを用いて検証し、映画スクリプトの文字属性タスクの評価ベンチマークとして機能させる。
ChatterEvalは、言語モデルの物語理解と長文モデリング能力を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:37:30Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。