論文の概要: The Elephant in the Coreference Room: Resolving Coreference in Full-Length French Fiction Works
- arxiv url: http://arxiv.org/abs/2510.15594v1
- Date: Fri, 17 Oct 2025 12:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.619339
- Title: The Elephant in the Coreference Room: Resolving Coreference in Full-Length French Fiction Works
- Title(参考訳): 校正室のエレファント:全長フレンチフィクション作品における校正の解決
- Authors: Antoine Bourgois, Thierry Poibeau,
- Abstract要約: 完全長のフランス小説3冊の注釈付きコーパスを新たに導入し,合計285,000枚以上のトークンを紹介した。
より短いテキストに焦点を当てた以前のデータセットとは異なり、私たちのコーパスは、長く複雑な文学作品によって引き起こされる課題に対処します。
我々のアプローチは競争力があり、長いドキュメントに対して効果的にスケールできることが示されます。
- 参考スコア(独自算出の注目度): 2.6547708221528987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While coreference resolution is attracting more interest than ever from computational literature researchers, representative datasets of fully annotated long documents remain surprisingly scarce. In this paper, we introduce a new annotated corpus of three full-length French novels, totaling over 285,000 tokens. Unlike previous datasets focused on shorter texts, our corpus addresses the challenges posed by long, complex literary works, enabling evaluation of coreference models in the context of long reference chains. We present a modular coreference resolution pipeline that allows for fine-grained error analysis. We show that our approach is competitive and scales effectively to long documents. Finally, we demonstrate its usefulness to infer the gender of fictional characters, showcasing its relevance for both literary analysis and downstream NLP tasks.
- Abstract(参考訳): コア推論の解像度は計算文学研究者によってこれまで以上に注目されているが、完全に注釈付けされた長い文書の代表的データセットは驚くほど少ないままである。
本稿では,285,000点以上の長編小説の注釈付きコーパスについて紹介する。
短いテキストに焦点をあてた以前のデータセットとは異なり、私たちのコーパスは長い複雑な文学作品がもたらす課題に対処し、長い参照連鎖の文脈におけるコア参照モデルの評価を可能にした。
細粒度エラー解析が可能なモジュール型コア参照分解パイプラインを提案する。
我々のアプローチは競争力があり、長いドキュメントに対して効果的にスケールできることが示されます。
最後に、フィクションキャラクターのジェンダーを推測する上での有用性を示し、文学的分析と下流のNLPタスクの両方に関連性を示す。
関連論文リスト
- BOOKCOREF: Coreference Resolution at Book Scale [44.08932883054499]
BOOKCOREFという,約20万トークンを超える平均文書長を持つブックスケールコアベンチマークを作成した。
この前代未聞の書籍スケール設定で導入された新しい課題について報告し、現在のモデルが同じパフォーマンスを達成できないことを強調した。
我々は,新たなブックスケールのCoreference Resolutionシステムの研究と開発を促進するために,データとコードを公開します。
論文 参考訳(メタデータ) (2025-07-16T09:35:38Z) - Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization [7.218054628599005]
本研究では,事実整合性エラーを考察し,それらと談話分析の行を結びつける。
長文を談話にインスパイアされたチャンクに分解するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T06:30:15Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。
LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。
注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文 参考訳(メタデータ) (2024-04-01T17:33:38Z) - Neural Natural Language Processing for Long Texts: A Survey on Classification and Summarization [6.728794938150435]
ディープニューラルネットワーク(DNN)の採用は自然言語処理(NLP)に大きな恩恵を受けている。
オンラインにアップロードされた文書のサイズがますます大きくなると、長文の自動理解が重要な問題になる。
この記事では、この動的ドメインのエントリポイントとして機能し、2つの目的を達成することを目的としています。
論文 参考訳(メタデータ) (2023-05-25T17:13:44Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Longtonotes: OntoNotes with Longer Coreference Chains [111.73115731999793]
コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
論文 参考訳(メタデータ) (2022-10-07T15:58:41Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。