論文の概要: Longtonotes: OntoNotes with Longer Coreference Chains
- arxiv url: http://arxiv.org/abs/2210.03650v1
- Date: Fri, 7 Oct 2022 15:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 12:58:50.052686
- Title: Longtonotes: OntoNotes with Longer Coreference Chains
- Title(参考訳): longtonotes: 長いコリファレンスチェーンを持つオントノート
- Authors: Kumar Shridhar, Nicholas Monath, Raghuveer Thirukovalluru, Alessandro
Stolfo, Manzil Zaheer, Andrew McCallum, Mrinmaya Sachan
- Abstract要約: コア参照アノテートされたドキュメントのコーパスを,現在利用可能なものよりもはるかに長い長さで構築する。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでいる。
この新しいコーパスを用いて,最先端のニューラルコアシステムの評価を行った。
- 参考スコア(独自算出の注目度): 111.73115731999793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ontonotes has served as the most important benchmark for coreference
resolution. However, for ease of annotation, several long documents in
Ontonotes were split into smaller parts. In this work, we build a corpus of
coreference-annotated documents of significantly longer length than what is
currently available. We do so by providing an accurate, manually-curated,
merging of annotations from documents that were split into multiple parts in
the original Ontonotes annotation process. The resulting corpus, which we call
LongtoNotes contains documents in multiple genres of the English language with
varying lengths, the longest of which are up to 8x the length of documents in
Ontonotes, and 2x those in Litbank. We evaluate state-of-the-art neural
coreference systems on this new corpus, analyze the relationships between model
architectures/hyperparameters and document length on performance and efficiency
of the models, and demonstrate areas of improvement in long-document
coreference modeling revealed by our new corpus. Our data and code is available
at: https://github.com/kumar-shridhar/LongtoNotes.
- Abstract(参考訳): ontonotes は coreference resolution の最も重要なベンチマークとして機能している。
しかし、注釈のしやすさのため、音符の長い文書は小部分に分割された。
本研究では,現在利用可能な文書よりもかなり長い長さの共参照注釈付き文書のコーパスを構築する。
私たちは、オリジナルのOntonotesアノテーションプロセスで複数の部分に分割されたドキュメントから、正確で手作業による、アノテーションのマージを提供することで、そうします。
結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでおり、その中最長はOntonotesの文書の8倍、Litbankの文書の2倍である。
この新しいコーパスでは,最先端のニューラルコリファレンスシステムを評価し,モデルアーキテクチャ/ハイパーパラメータと文書長の関係を分析し,モデルの性能と効率について分析し,新しいコーパスで明らかにされる長文コリファレンスモデリングの改善領域を示す。
私たちのデータとコードは、https://github.com/kumar-shridhar/longtonotesで利用可能です。
関連論文リスト
- DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Leveraging BERT Language Model for Arabic Long Document Classification [0.47138177023764655]
長いアラビア文書を分類する2つのモデルを提案する。
どちらのモデルも、このタスクでLongformerとRoBERTを2つの異なるデータセットで上回ります。
論文 参考訳(メタデータ) (2023-05-04T13:56:32Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from
Short to Long Contexts and for Implication-Based Retrieval [72.4859717204905]
LawngNLIは米国法的な見解から構築されており、高い精度で自動ラベルが付けられている。
短いコンテキストから長いコンテキストまでドメイン内の一般化のベンチマークを行うことができる。
LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
論文 参考訳(メタデータ) (2022-12-06T18:42:39Z) - Aggregating Crowdsourced and Automatic Judgments to Scale Up a Corpus of
Anaphoric Reference for Fiction and Wikipedia Texts [16.42217979543271]
本稿では,ゲーム・ウィズ・ア・ユースを通じてラベル付けされたアナフォリック参照のためのコーパスの新たなリリースを紹介する。
これは、プレイヤーのかなりの活動のために、アナフォリック参照のための最大の既存のコーパスに匹敵する大きさである。
提案手法は,ゲーム・アズ・ア・ユースを含む他のプロジェクトにおいて,アノテーション時間を大幅に高速化するために適用できる。
論文 参考訳(メタデータ) (2022-10-11T16:13:57Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - Learning to Ignore: Long Document Coreference with Bounded Memory Neural
Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。
a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文 参考訳(メタデータ) (2020-10-06T15:16:31Z) - Fine-Grained Relevance Annotations for Multi-Task Document Ranking and
Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。
TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。
例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文 参考訳(メタデータ) (2020-08-12T14:59:50Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。