Fugu-MT 論文翻訳(概要): A Zipf's Law-based Text Generation Approach for Addressing Imbalance in Entity Extraction

論文の概要: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in Entity Extraction

arxiv url: http://arxiv.org/abs/2205.12636v3
Date: Fri, 1 Sep 2023 00:09:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 17:41:01.996191
Title: A Zipf's Law-based Text Generation Approach for Addressing Imbalance in Entity Extraction
Title（参考訳）: zipfの法則に基づくテキスト生成手法によるエンティティ抽出の不均衡解消
Authors: Zhenhua Wang, Ming Ren, Dong Gao, Zhuang Li
Abstract要約: 本稿では,その量的情報を通して問題を観察し,新たなアプローチを提案する。実体がある種の共通性を示す一方で、他の実体が不足していることを認識しており、これは単語の量的分布に反映できる。 Zipfの法則は、よく適合した採用として現れ、単語から実体へ移行するために、文書内の単語は、一般的で稀なものとして分類される。
参考スコア（独自算出の注目度）: 19.55959053873699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Entity extraction is critical in the intelligent advancement across diverse domains. Nevertheless, a challenge to its effectiveness arises from the data imbalance. This paper proposes a novel approach by viewing the issue through the quantitative information, recognizing that entities exhibit certain levels of commonality while others are scarce, which can be reflected in the quantifiable distribution of words. The Zipf's Law emerges as a well-suited adoption, and to transition from words to entities, words within the documents are classified as common and rare ones. Subsequently, sentences are classified into common and rare ones, and are further processed by text generation models accordingly. Rare entities within the generated sentences are then labeled using human-designed rules, serving as a supplement to the raw dataset, thereby mitigating the imbalance problem. The study presents a case of extracting entities from technical documents, and experimental results from two datasets prove the effectiveness of the proposed method. Furthermore, the significance of Zipf's law in driving the progress of AI is discussed, broadening the reach and coverage of Informetrics. This paper presents a successful demonstration of extending Informetrics to interface with AI through Zipf's Law.
Abstract（参考訳）: エンティティ抽出は、さまざまなドメインにわたるインテリジェントな進化において重要である。それでも、その効果への挑戦はデータの不均衡から生じる。本稿では,定量的情報を通して問題を見ることにより,共通性が一定のレベルを示す一方で,単語の定量化可能な分布に反映されるような類似性が乏しいことを認識し,新たなアプローチを提案する。 zipfの法則は、適切に採用され、単語から実体へ移行するために、文書内の単語は、一般的かつ稀なものに分類される。その後、文章は共通および希少に分類され、さらにテキスト生成モデルによって処理される。生成された文内のレアエンティティは、人間が設計したルールを使ってラベル付けされ、生のデータセットの補足として働き、不均衡問題を緩和する。本研究は,技術文書からエンティティを抽出する事例を示し,提案手法の有効性を2つのデータセットから実験的に証明する。さらに、AIの進歩を促進する上でのZipfの法則の重要性について論じ、インフォメトリックスの到達範囲と範囲を広げる。本稿では、Zipfの法則を用いて、InformetricsをAIとのインタフェースに拡張する成功例を示す。

関連論文リスト

Knowledge Augmented Entity and Relation Extraction for Legal Documents with Hypergraph Neural Network [1.446271016723962]
本稿では,薬物関連判定文書に対するハイパーグラフニューラルネットワーク(Legal-KAHRE)に基づくエンティティと関係抽出アルゴリズムを提案する。司法ドメイン知識を持つ法律辞書を構築し,それをテキストエンコーディング表現に統合する。 CAIL2022情報抽出データセットの実験結果から,本手法が既存のベースラインモデルより大幅に優れていることが示された。
論文参考訳（メタデータ） (2026-02-09T05:46:11Z)
Legal experts disagree with rationale extraction techniques for explaining ECtHR case outcome classification [9.334783986218232]
解釈可能性(interpretability)は、法律分野における大規模言語モデルの応用に不可欠である。本稿では,モデルに依存しない解釈可能性手法の比較分析フレームワークを提案する。モデルが違反を予測する「理由」は,法の専門家とは大きく異なることを示す。
論文参考訳（メタデータ） (2026-01-18T14:03:17Z)
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation [3.8868752812726064]
そこで我々はPlainQAFactを紹介した。PlainFactは粒度の細かい人手によるデータセットに基づいて訓練されたフレームワークだ。 PlainQAFactは、まず事実のタイプを分類し、次に検索強化されたQAベースのスコアリング手法を用いて事実のタイプを評価する。
論文参考訳（メタデータ） (2025-03-11T20:59:53Z)
Attention with Dependency Parsing Augmentation for Fine-Grained Attribution [26.603281615221505]
提案手法は,検索した文書から各回答に対する証拠を裏付ける,きめ細かな属性機構を開発する。既存の属性法は、応答と文書間のモデル-内部類似度(Saliency scores)や隠れ状態類似度(hidden state similarity)など)に依存している。まず,表現の粒度を保ちつつ,集合ユニオン操作を通じてトークンに関する証拠を集約する。第二に、ターゲットスパンの意味的完全性を強化するために依存性解析を統合することで属性の強化を行う。
論文参考訳（メタデータ） (2024-12-16T03:12:13Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文参考訳（メタデータ） (2024-05-17T11:22:27Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文参考訳（メタデータ） (2023-05-18T15:43:09Z)
Rhetorical Role Labeling of Legal Documents using Transformers and Graph Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文参考訳（メタデータ） (2023-05-06T17:04:51Z)
Elastic Weight Removal for Faithful and Abstractive Dialogue Generation [61.40951756070646]
対話システムは、関連する文書に含まれる知識に忠実な応答を生成するべきである。多くのモデルは、それと矛盾したり、検証不可能な情報を含んでいる代わりに幻覚応答を生成する。本手法は,幻覚と抽出反応を同時に阻止するために拡張できることが示唆された。
論文参考訳（メタデータ） (2023-03-30T17:40:30Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
Understanding Points of Correspondence between Sentences for Abstractive Summarization [39.7404761923196]
本稿では,文書から引き出された文の融合について,対応点の概念を導入して検討する。我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。
論文参考訳（メタデータ） (2020-06-10T02:42:38Z)
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。提案手法の有効性をベンチマークデータセットで検証する。
論文参考訳（メタデータ） (2020-06-01T18:27:48Z)
Hybrid Attention-Based Transformer Block Model for Distant Supervision Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。提案手法は評価データセットの最先端アルゴリズムより優れている。
論文参考訳（メタデータ） (2020-03-10T13:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。