論文の概要: On Event Individuation for Document-Level Information Extraction
- arxiv url: http://arxiv.org/abs/2212.09702v3
- Date: Fri, 20 Oct 2023 21:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:04:55.928676
- Title: On Event Individuation for Document-Level Information Extraction
- Title(参考訳): 文書レベル情報抽出のためのイベント識別について
- Authors: William Gantt, Reno Kriz, Yunmo Chen, Siddharth Vashishtha, Aaron
Steven White
- Abstract要約: 我々は,この課題が事象の偏見に関する厄介な質問に対して決定的な回答を要求することを主張する。
これにより、テンプレートフィリングメトリクスの有用性、タスクのデータセットの品質、学習するモデルの能力に関する懸念が高まります。
- 参考スコア(独自算出の注目度): 10.051706937866504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As information extraction (IE) systems have grown more adept at processing
whole documents, the classic task of template filling has seen renewed interest
as benchmark for document-level IE. In this position paper, we call into
question the suitability of template filling for this purpose. We argue that
the task demands definitive answers to thorny questions of event individuation
-- the problem of distinguishing distinct events -- about which even human
experts disagree. Through an annotation study and error analysis, we show that
this raises concerns about the usefulness of template filling metrics, the
quality of datasets for the task, and the ability of models to learn it.
Finally, we consider possible solutions.
- Abstract(参考訳): 情報抽出(IE)システムがドキュメント全体の処理に長けているため、テンプレートフィリングの古典的なタスクは文書レベルのIEのベンチマークとして再び注目されている。
本稿では,この目的のためにテンプレート充填の妥当性に疑問を呈する。
我々は、このタスクが、個々の出来事を区別する問題である、出来事の特定に関する微妙な疑問に対する決定的な答えを要求すると論じている。
アノテーション研究とエラー分析を通じて、テンプレート充填メトリクスの有用性、タスクのためのデータセットの品質、モデルが学習する能力に懸念があることが示されている。
最後に、可能な解決策を検討する。
関連論文リスト
- Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - Learning to Ask for Data-Efficient Event Argument Extraction [23.106166629659405]
イベント引数抽出(EAE)は、特定の引数の役割を発見するための情報抽出の重要なタスクである。
本研究では,EAEを質問ベースのクローズタスクとし,固定された離散トークンテンプレートの性能を実験的に解析する。
人間のアノテーションを使わずにEAEに最適化された質問テンプレートを学習できる新しいアプローチ「Learning to Ask」を提案する。
論文 参考訳(メタデータ) (2021-10-01T15:22:37Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - A Review on Fact Extraction and Verification [19.373340472113703]
本研究では,あるクレームの正当性を特定することを目的とした事実チェック問題について検討する。
我々は、Fact extract and verification(FEVER)タスクとそれに伴うデータセットに焦点を当てる。
このタスクは必須であり、偽ニュースの検出や医療クレームの検証といったアプリケーションの構築ブロックになる可能性がある。
論文 参考訳(メタデータ) (2020-10-06T20:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。