論文の概要: Contextualization and Generalization in Entity and Relation Extraction
- arxiv url: http://arxiv.org/abs/2206.07558v1
- Date: Wed, 15 Jun 2022 14:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:48:59.268876
- Title: Contextualization and Generalization in Entity and Relation Extraction
- Title(参考訳): エンティティと関係抽出における文脈化と一般化
- Authors: Bruno Taill\'e
- Abstract要約: 本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: During the past decade, neural networks have become prominent in Natural
Language Processing (NLP), notably for their capacity to learn relevant word
representations from large unlabeled corpora. These word embeddings can then be
transferred and finetuned for diverse end applications during a supervised
training phase. More recently, in 2018, the transfer of entire pretrained
Language Models and the preservation of their contextualization capacities
enabled to reach unprecedented performance on virtually every NLP benchmark,
sometimes even outperforming human baselines. However, as models reach such
impressive scores, their comprehension abilities still appear as shallow, which
reveal limitations of benchmarks to provide useful insights on their factors of
performance and to accurately measure understanding capabilities.
In this thesis, we study the behaviour of state-of-the-art models regarding
generalization to facts unseen during training in two important Information
Extraction tasks: Named Entity Recognition (NER) and Relation Extraction (RE).
Indeed, traditional benchmarks present important lexical overlap between
mentions and relations used for training and evaluating models, whereas the
main interest of Information Extraction is to extract previously unknown
information. We propose empirical studies to separate performance based on
mention and relation overlap with the training set and find that pretrained
Language Models are mainly beneficial to detect unseen mentions, in particular
out-of-domain. While this makes them suited for real use cases, there is still
a gap in performance between seen and unseen mentions that hurts generalization
to new facts. In particular, even state-of-the-art ERE models rely on a shallow
retention heuristic, basing their prediction more on arguments surface forms
than context.
- Abstract(参考訳): 過去10年間で、ニューラルネットワークは自然言語処理(nlp)において顕著になり、特に大きなラベルのないコーパスから関連する単語表現を学ぶ能力がある。
これらの単語の埋め込みは、教師付きトレーニングフェーズ中に様々なエンドアプリケーションに転送および微調整される。
最近では、2018年にトレーニング済みの言語モデル全体の移行とコンテキスト化能力の維持によって、ほぼすべてのnlpベンチマークで前例のないパフォーマンスを実現している。
しかし、モデルがそのような印象的なスコアに達すると、その理解能力は依然として浅く見え、ベンチマークの限界が示され、パフォーマンスの要因や理解能力の正確な測定に役立ちます。
本稿では,NER( Named Entity Recognition)とRE(Relation extract)という2つの重要な情報抽出タスクにおいて,訓練中に見つからない事象への一般化に関する最先端モデルの振る舞いを考察する。
実際、従来のベンチマークでは、トレーニングやモデル評価に使用される言及と関係の間に重要な語彙的重複が示され、情報抽出の主な関心は、これまで未知の情報を抽出することである。
本稿では,トレーニングセットと重複する参照と関係性に基づくパフォーマンスの分離を実証的に検討し,事前学習言語モデルが,特にドメイン外における未確認言及の検出に主に有用であることを示す。
これにより、実際のユースケースに適合するが、新しい事実への一般化を損なう、目に見えるものと見えないものの間には、まだパフォーマンスの差がある。
特に、最先端のereモデルでさえ、浅い保持ヒューリスティックに依存しており、それらの予測は文脈よりも議論の表面形式に基づいている。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Bayes' Power for Explaining In-Context Learning Generalizations [46.17844703369127]
本稿では、この時代のニューラルネットワークの振る舞いをより有用な解釈は、真の後部の近似であると論じる。
トレーニングデータから知識を効果的に構築することにより,モデルがコンテキスト内学習者に対して堅牢になることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:01:34Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Topics as Entity Clusters: Entity-based Topics from Large Language Models and Graph Neural Networks [0.6486052012623045]
本稿では,エンティティのバイモーダルベクトル表現を用いたトピッククラスタリング手法を提案する。
我々のアプローチは、最先端のモデルと比較してエンティティを扱うのに適している。
論文 参考訳(メタデータ) (2023-01-06T10:54:54Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Assessing the Limits of the Distributional Hypothesis in Semantic
Spaces: Trait-based Relational Knowledge and the Impact of Co-occurrences [6.994580267603235]
この研究は、自然言語の有意義な表現を捉えるために、データに必要とされることの比較的無意味な経路に寄与する。
これは、英語とスペイン語のセマンティックスペースが特定の種類の関係知識をいかにうまく捉えているかを評価することを必要とする。
論文 参考訳(メタデータ) (2022-05-16T12:09:40Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。
実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文 参考訳(メタデータ) (2021-04-10T12:22:25Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。