論文の概要: On Event Individuation for Document-Level Information Extraction
- arxiv url: http://arxiv.org/abs/2212.09702v1
- Date: Mon, 19 Dec 2022 18:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:25:12.978031
- Title: On Event Individuation for Document-Level Information Extraction
- Title(参考訳): 文書レベル情報抽出のためのイベント識別について
- Authors: William Gantt, Reno Kriz, Yunmo Chen, Siddharth Vashishtha, Aaron
Steven White
- Abstract要約: 我々は,その課題が啓発的偏見の難解な質問に対する決定的な答えを要求することを主張する
アノテーション研究とエラー解析を通して、テンプレートフィリング評価指標の有用性に関する懸念を提起する。
- 参考スコア(独自算出の注目度): 11.60902114581505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As information extraction (IE) systems have grown more capable at
whole-document extraction, the classic task of \emph{template filling} has seen
renewed interest as a benchmark for evaluating them. In this position paper, we
call into question the suitability of template filling for this purpose. We
argue that the task demands definitive answers to thorny questions of
\emph{event individuation} -- the problem of distinguishing distinct events --
about which even human experts disagree. We show through annotation studies and
error analysis that this raises concerns about the usefulness of template
filling evaluation metrics, the quality of datasets for the task, and the
ability of models to learn it. Finally, we consider possible solutions.
- Abstract(参考訳): 情報抽出システム(IE)は文書全体の抽出能力が向上するにつれて,従来の課題である「emph{template fill}」が評価基準として注目されている。
本稿では,この目的のためにテンプレート充填の妥当性に疑問を呈する。
タスクは、人間の専門家でさえ異論を唱える、異なる事象を区別する問題である \emph{event individuation} に対する決定的な答えを要求する。
アノテーション研究とエラー分析を通して、テンプレート充填評価メトリクスの有用性、タスクのためのデータセットの品質、モデルが学習する能力について懸念を生じさせることを示した。
最後に、可能な解決策を検討する。
関連論文リスト
- Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - Learning to Ask for Data-Efficient Event Argument Extraction [23.106166629659405]
イベント引数抽出(EAE)は、特定の引数の役割を発見するための情報抽出の重要なタスクである。
本研究では,EAEを質問ベースのクローズタスクとし,固定された離散トークンテンプレートの性能を実験的に解析する。
人間のアノテーションを使わずにEAEに最適化された質問テンプレートを学習できる新しいアプローチ「Learning to Ask」を提案する。
論文 参考訳(メタデータ) (2021-10-01T15:22:37Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - A Review on Fact Extraction and Verification [19.373340472113703]
本研究では,あるクレームの正当性を特定することを目的とした事実チェック問題について検討する。
我々は、Fact extract and verification(FEVER)タスクとそれに伴うデータセットに焦点を当てる。
このタスクは必須であり、偽ニュースの検出や医療クレームの検証といったアプリケーションの構築ブロックになる可能性がある。
論文 参考訳(メタデータ) (2020-10-06T20:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。