論文の概要: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction
- arxiv url: http://arxiv.org/abs/2205.12636v3
- Date: Fri, 1 Sep 2023 00:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:41:01.996191
- Title: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction
- Title(参考訳): zipfの法則に基づくテキスト生成手法によるエンティティ抽出の不均衡解消
- Authors: Zhenhua Wang, Ming Ren, Dong Gao, Zhuang Li
- Abstract要約: 本稿では,その量的情報を通して問題を観察し,新たなアプローチを提案する。
実体がある種の共通性を示す一方で、他の実体が不足していることを認識しており、これは単語の量的分布に反映できる。
Zipfの法則は、よく適合した採用として現れ、単語から実体へ移行するために、文書内の単語は、一般的で稀なものとして分類される。
- 参考スコア(独自算出の注目度): 19.55959053873699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity extraction is critical in the intelligent advancement across diverse
domains. Nevertheless, a challenge to its effectiveness arises from the data
imbalance. This paper proposes a novel approach by viewing the issue through
the quantitative information, recognizing that entities exhibit certain levels
of commonality while others are scarce, which can be reflected in the
quantifiable distribution of words. The Zipf's Law emerges as a well-suited
adoption, and to transition from words to entities, words within the documents
are classified as common and rare ones. Subsequently, sentences are classified
into common and rare ones, and are further processed by text generation models
accordingly. Rare entities within the generated sentences are then labeled
using human-designed rules, serving as a supplement to the raw dataset, thereby
mitigating the imbalance problem. The study presents a case of extracting
entities from technical documents, and experimental results from two datasets
prove the effectiveness of the proposed method. Furthermore, the significance
of Zipf's law in driving the progress of AI is discussed, broadening the reach
and coverage of Informetrics. This paper presents a successful demonstration of
extending Informetrics to interface with AI through Zipf's Law.
- Abstract(参考訳): エンティティ抽出は、さまざまなドメインにわたるインテリジェントな進化において重要である。
それでも、その効果への挑戦はデータの不均衡から生じる。
本稿では,定量的情報を通して問題を見ることにより,共通性が一定のレベルを示す一方で,単語の定量化可能な分布に反映されるような類似性が乏しいことを認識し,新たなアプローチを提案する。
zipfの法則は、適切に採用され、単語から実体へ移行するために、文書内の単語は、一般的かつ稀なものに分類される。
その後、文章は共通および希少に分類され、さらにテキスト生成モデルによって処理される。
生成された文内のレアエンティティは、人間が設計したルールを使ってラベル付けされ、生のデータセットの補足として働き、不均衡問題を緩和する。
本研究は,技術文書からエンティティを抽出する事例を示し,提案手法の有効性を2つのデータセットから実験的に証明する。
さらに、AIの進歩を促進する上でのZipfの法則の重要性について論じ、インフォメトリックスの到達範囲と範囲を広げる。
本稿では、Zipfの法則を用いて、InformetricsをAIとのインタフェースに拡張する成功例を示す。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-driven
Training Data Generation [63.18211192998151]
本稿では,現実的に一貫性のない要約を生成する新しいフレームワークであるAMRFactを提案する。
提案手法は, 現実的に正しい要約をAMRグラフに解析し, 否定的な例を生成するために制御された事実矛盾を注入する。
提案手法は,AggreFact-SOTAデータセットにおいて,従来のシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Unsupervised Extractive Summarization using Pointwise Mutual Information [5.544401446569243]
文間のポイントワイズ相互情報 (PMI) を用いて, 関連性および冗長性の新たな指標を提案する。
本手法は, ニュース, 医療雑誌記事, 個人逸話など, さまざまな領域のデータセットにおける類似性に基づく手法を上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-11T21:05:50Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Understanding Points of Correspondence between Sentences for Abstractive
Summarization [39.7404761923196]
本稿では,文書から引き出された文の融合について,対応点の概念を導入して検討する。
我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。
論文 参考訳(メタデータ) (2020-06-10T02:42:38Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。