論文の概要: Improving Quotation Attribution with Fictional Character Embeddings
- arxiv url: http://arxiv.org/abs/2406.11368v2
- Date: Fri, 04 Oct 2024 10:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:12.118420
- Title: Improving Quotation Attribution with Fictional Character Embeddings
- Title(参考訳): 図形文字埋め込みによる引用属性の改善
- Authors: Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara,
- Abstract要約: 本稿では,文字のグローバルなスタイリスティックな情報をエンコードする文字埋め込みにより,人気のある引用帰属システムであるBookNLPを提案する。
提案するグローバル文字埋め込みとBookNLPの文脈情報を組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上することを示す。
- 参考スコア(独自算出の注目度): 11.259583037191772
- License:
- Abstract: Humans naturally attribute utterances of direct speech to their speaker in literary works. When attributing quotes, we process contextual information but also access mental representations of characters that we build and revise throughout the narrative. Recent methods to automatically attribute such utterances have explored simulating human logic with deterministic rules or learning new implicit rules with neural networks when processing contextual information. However, these systems inherently lack \textit{character} representations, which often leads to errors in more challenging examples of attribution: anaphoric and implicit quotes. In this work, we propose to augment a popular quotation attribution system, BookNLP, with character embeddings that encode global stylistic information of characters derived from an off-the-shelf stylometric model, Universal Authorship Representation (UAR). We create DramaCV (Code and data can be found at https://github.com/deezer/character_embeddings_qa ), a corpus of English drama plays from the 15th to 20th century that we automatically annotate for Authorship Verification of fictional characters utterances, and release two versions of UAR trained on DramaCV, that are tailored for literary characters analysis. Then, through an extensive evaluation on 28 novels, we show that combining BookNLP's contextual information with our proposed global character embeddings improves the identification of speakers for anaphoric and implicit quotes, reaching state-of-the-art performance.
- Abstract(参考訳): 人間は自然に、文学作品において直接演説の発声を話者に与えている。
引用を引用する際、文脈情報を処理するだけでなく、物語全体を通して構築し、修正するキャラクターの精神的表現にもアクセスする。
このような発話を自動的に属性付けする最近の手法は、人間の論理を決定論的規則でシミュレートするか、文脈情報を処理する際にニューラルネットワークで新しい暗黙的な規則を学習するかを検討した。
しかし、これらのシステムは本質的には \textit{character} 表現を欠いているため、帰属のより困難な例であるアナフォリックや暗黙の引用のエラーにつながることが多い。
そこで本研究では,市販のテクスチャモデルであるUniversal Authorship Representation (UAR)から派生した文字のグローバルなスタイリスティックな情報をエンコードした,一般的な引用帰属システムであるBookNLPを提案する。
DramaCV (https://github.com/deezer/character_embeddings_qa ) は15世紀から20世紀のイギリスのドラマ劇のコーパスで、架空の文字の発話のオーサリングを自動アノテーションで検証し、DramaCVで訓練された2つのバージョンのUARをリリースする。
そこで本研究では,28冊の小説を広範囲に評価することにより,本書の文脈情報と,提案するグローバルキャラクタ埋め込みを組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上し,最先端のパフォーマンスに達することを示す。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。