論文の概要: Document-Level Definition Detection in Scholarly Documents: Existing
Models, Error Analyses, and Future Directions
- arxiv url: http://arxiv.org/abs/2010.05129v1
- Date: Sun, 11 Oct 2020 01:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:25:58.145237
- Title: Document-Level Definition Detection in Scholarly Documents: Existing
Models, Error Analyses, and Future Directions
- Title(参考訳): 学校文書における文書レベル定義検出:既存のモデル,エラー解析,今後の方向性
- Authors: Dongyeop Kang, Andrew Head, Risham Sidhu, Kyle Lo, Daniel S. Weld,
Marti A. Hearst
- Abstract要約: 我々は,構文的特徴,トランスフォーマーエンコーダ,フィルタを利用した新たな定義検出システムHEDDExを開発し,標準文レベルのベンチマークで評価する。
HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。
- 参考スコア(独自算出の注目度): 40.64025648548128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of definition detection is important for scholarly papers, because
papers often make use of technical terminology that may be unfamiliar to
readers. Despite prior work on definition detection, current approaches are far
from being accurate enough to use in real-world applications. In this paper, we
first perform in-depth error analysis of the current best performing definition
detection system and discover major causes of errors. Based on this analysis,
we develop a new definition detection system, HEDDEx, that utilizes syntactic
features, transformer encoders, and heuristic filters, and evaluate it on a
standard sentence-level benchmark. Because current benchmarks evaluate randomly
sampled sentences, we propose an alternative evaluation that assesses every
sentence within a document. This allows for evaluating recall in addition to
precision. HEDDEx outperforms the leading system on both the sentence-level and
the document-level tasks, by 12.7 F1 points and 14.4 F1 points, respectively.
We note that performance on the high-recall document-level task is much lower
than in the standard evaluation approach, due to the necessity of incorporation
of document structure as features. We discuss remaining challenges in
document-level definition detection, ideas for improvements, and potential
issues for the development of reading aid applications.
- Abstract(参考訳): 論文は、読者になじみのない技術用語をしばしば利用するため、学術論文にとって定義検出のタスクは重要である。
定義検出に関する以前の作業にもかかわらず、現在のアプローチは現実のアプリケーションで使えるほど正確ではない。
本稿では,まず,現在の最適定義検出システムの深度誤差解析を行い,誤りの主な原因を明らかにする。
本研究では,構文特徴量,トランスフォーマーエンコーダ,ヒューリスティックフィルタを用いた新しい定義検出システムheddexを開発し,標準文レベルのベンチマークで評価する。
現在のベンチマークはランダムにサンプリングされた文を評価するため、文書内の各文を評価する代替評価を提案する。
これにより、精度に加えてリコールを評価することができる。
HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。
文書構造を特徴として組み込む必要があるため,高リコール文書レベルのタスクの性能は,標準評価手法よりもはるかに低いことに留意する。
本稿では,文書レベルの定義検出,改善のためのアイデア,読解支援アプリケーション開発における潜在的な課題について論じる。
関連論文リスト
- Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。
提案したベンチマークで最先端の手法を広範囲に評価する。
この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文 参考訳(メタデータ) (2024-11-08T13:40:01Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - READoc: A Unified Benchmark for Realistic Document Structured Extraction [44.44722729958791]
本稿では,DSEを現実的なタスクとして定義するREADocという新しいベンチマークを紹介する。
READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。
さらに,最先端DSE手法の統一評価法を開発した。
論文 参考訳(メタデータ) (2024-09-08T15:42:48Z) - Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - SLIDE: Reference-free Evaluation for Machine Translation using a Sliding Document Window [24.524282909076767]
本稿では,文ブロックで動作するSLIDE(SLIding Document Evaluator)というメトリクスを提案する。
SLIDEは文レベルベースラインよりもペアワイズシステムの精度がかなり高いことがわかった。
このことは、ソースの曖昧さを曖昧にするために、ソースコンテキストが人間の参照と同じ情報を提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-09-16T01:30:58Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Neural Rankers for Effective Screening Prioritisation in Medical
Systematic Review Literature Search [31.797257552928336]
本稿では,事前学習した言語モデルを,体系的なレビュー文書ランキングタスクに適用する。
経験的分析は、このタスクの従来の方法と比較して、ニューラルネットワークがいかに効果的かを比較する。
以上の結果から,BERTをベースとしたランカは,現在のスクリーニング方法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-18T05:26:40Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。