論文の概要: BookWorm: A Dataset for Character Description and Analysis
- arxiv url: http://arxiv.org/abs/2410.10372v1
- Date: Mon, 14 Oct 2024 10:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 22:04:40.530574
- Title: BookWorm: A Dataset for Character Description and Analysis
- Title(参考訳): BookWorm: 文字記述と分析のためのデータセット
- Authors: Argyrios Papoudakis, Mirella Lapata, Frank Keller,
- Abstract要約: 本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 59.186325346763184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characters are at the heart of every story, driving the plot and engaging readers. In this study, we explore the understanding of characters in full-length books, which contain complex narratives and numerous interacting characters. We define two tasks: character description, which generates a brief factual profile, and character analysis, which offers an in-depth interpretation, including character development, personality, and social context. We introduce the BookWorm dataset, pairing books from the Gutenberg Project with human-written descriptions and analyses. Using this dataset, we evaluate state-of-the-art long-context models in zero-shot and fine-tuning settings, utilizing both retrieval-based and hierarchical processing for book-length inputs. Our findings show that retrieval-based approaches outperform hierarchical ones in both tasks. Additionally, fine-tuned models using coreference-based retrieval produce the most factual descriptions, as measured by fact- and entailment-based metrics. We hope our dataset, experiments, and analysis will inspire further research in character-based narrative understanding.
- Abstract(参考訳): キャラクターはあらゆる物語の中心にあり、プロットを駆り立て、読者を惹きつける。
本研究では,複雑な物語と多数の対話的キャラクターを含むフル長の書籍における文字の理解について検討する。
本稿では, 短い事実プロファイルを生成する文字記述と, 性格発達, 人格, 社会的文脈など, 深い解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
本データセットを用いて、検索ベースと階層処理の両方を用いて、ゼロショットおよび微調整設定における最先端の長文モデルの評価を行う。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
さらに、コア参照に基づく検索を用いた微調整モデルでは、ファクトベースとエンテーメントベースのメトリクスによって測定されるように、最も事実的な記述が生成される。
われわれのデータセット、実験、分析が、キャラクタベースの物語理解のさらなる研究を促すことを願っている。
関連論文リスト
- CHATTER: A Character Attribution Dataset for Narrative Understanding [31.540540919042154]
我々はChatterのサブセットであるChatterEvalを人間のアノテーションを用いて検証し、映画スクリプトの文字属性タスクの評価ベンチマークとして機能させる。
ChatterEvalは、言語モデルの物語理解と長文モデリング能力を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:37:30Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Branching Narratives: Character Decision Points Detection [13.615681132633561]
本稿では,CYOAライクなゲームグラフをベースとした新しいデータセットを提案する。
このようなモデルを既存のテキストに適用して,潜在的分岐点で分割した線形セグメントを生成する方法を示す。
論文 参考訳(メタデータ) (2024-05-12T13:36:07Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - Detecting and Grounding Important Characters in Visual Stories [18.870236356616907]
本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
論文 参考訳(メタデータ) (2023-03-30T18:24:06Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。