論文の概要: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction
- arxiv url: http://arxiv.org/abs/2205.12636v3
- Date: Fri, 1 Sep 2023 00:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:41:01.996191
- Title: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in
Entity Extraction
- Title(参考訳): zipfの法則に基づくテキスト生成手法によるエンティティ抽出の不均衡解消
- Authors: Zhenhua Wang, Ming Ren, Dong Gao, Zhuang Li
- Abstract要約: 本稿では,その量的情報を通して問題を観察し,新たなアプローチを提案する。
実体がある種の共通性を示す一方で、他の実体が不足していることを認識しており、これは単語の量的分布に反映できる。
Zipfの法則は、よく適合した採用として現れ、単語から実体へ移行するために、文書内の単語は、一般的で稀なものとして分類される。
- 参考スコア(独自算出の注目度): 19.55959053873699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity extraction is critical in the intelligent advancement across diverse
domains. Nevertheless, a challenge to its effectiveness arises from the data
imbalance. This paper proposes a novel approach by viewing the issue through
the quantitative information, recognizing that entities exhibit certain levels
of commonality while others are scarce, which can be reflected in the
quantifiable distribution of words. The Zipf's Law emerges as a well-suited
adoption, and to transition from words to entities, words within the documents
are classified as common and rare ones. Subsequently, sentences are classified
into common and rare ones, and are further processed by text generation models
accordingly. Rare entities within the generated sentences are then labeled
using human-designed rules, serving as a supplement to the raw dataset, thereby
mitigating the imbalance problem. The study presents a case of extracting
entities from technical documents, and experimental results from two datasets
prove the effectiveness of the proposed method. Furthermore, the significance
of Zipf's law in driving the progress of AI is discussed, broadening the reach
and coverage of Informetrics. This paper presents a successful demonstration of
extending Informetrics to interface with AI through Zipf's Law.
- Abstract(参考訳): エンティティ抽出は、さまざまなドメインにわたるインテリジェントな進化において重要である。
それでも、その効果への挑戦はデータの不均衡から生じる。
本稿では,定量的情報を通して問題を見ることにより,共通性が一定のレベルを示す一方で,単語の定量化可能な分布に反映されるような類似性が乏しいことを認識し,新たなアプローチを提案する。
zipfの法則は、適切に採用され、単語から実体へ移行するために、文書内の単語は、一般的かつ稀なものに分類される。
その後、文章は共通および希少に分類され、さらにテキスト生成モデルによって処理される。
生成された文内のレアエンティティは、人間が設計したルールを使ってラベル付けされ、生のデータセットの補足として働き、不均衡問題を緩和する。
本研究は,技術文書からエンティティを抽出する事例を示し,提案手法の有効性を2つのデータセットから実験的に証明する。
さらに、AIの進歩を促進する上でのZipfの法則の重要性について論じ、インフォメトリックスの到達範囲と範囲を広げる。
本稿では、Zipfの法則を用いて、InformetricsをAIとのインタフェースに拡張する成功例を示す。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。
本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。
我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文 参考訳(メタデータ) (2024-05-17T11:22:27Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。
多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。
本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-03-30T17:40:30Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Understanding Points of Correspondence between Sentences for Abstractive
Summarization [39.7404761923196]
本稿では,文書から引き出された文の融合について,対応点の概念を導入して検討する。
我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。
論文 参考訳(メタデータ) (2020-06-10T02:42:38Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。