論文の概要: SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction
- arxiv url: http://arxiv.org/abs/2605.23440v3
- Date: Wed, 27 May 2026 02:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.888234
- Title: SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction
- Title(参考訳): SSDAU:ジョイントエンティティとリレーショナル抽出のための構造化意味データ拡張
- Authors: Jiawei He, Mengyu Shi, Jiawei Liu, Dong Sun, Zhijie Wang, Chunrong Fang, Xikai Yang, Zhenyu Chen,
- Abstract要約: 本研究では,拡張中のテキストの意味的構造を保存するために,構造化意味データ拡張(SSDAU)を提案する。
SSDAUはエンティティラベルに基づいてテキストをセグメントし、エンコーダを使用してエンティティの意味的特徴をキャプチャする。
その後、エンティティセマンティック再構築を行い、拡張データを生成する。
実験により、SSDAUはあいまいさに対して優れた堅牢性を持つセマンティック一貫性のあるデータを生成することが示された。
- 参考スコア(独自算出の注目度): 19.139039630736946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint Entity and Relation Extraction (JERE) is highly susceptible to weak generalization due to low-quality training data. Data augmentation is a common strategy to enhance model generalization across different domains. However, existing data augmentation methods often overlook text relevance and may disrupt semantic structures and dependencies, making it difficult to generate effective augmented data for improving model generalization. In this paper, we propose Structured Semantic Data Augmentation (SSDAU), a novel method designed to preserve the semantic structure of text during augmentation. SSDAU segments text based on entity labels and employs an encoder to capture semantic features of entities through context awareness. It then performs entity semantic restructuring to generate augmented data. To distinguish semantically similar entities, SSDAU fuses contextualized embeddings with traditional similarity scores. To mitigate potential topic ambiguity and information loss, we apply the BERTTopic model to filter out irrelevant topics, ensuring topic consistency. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular data augmentation baselines. Experiments demonstrate that SSDAU generates semantically consistent data with superior robustness against ambiguity (8.26% F1 decrease vs. 31.91% for baselines), significantly outperforming all existing methods across all metrics.
- Abstract(参考訳): 統合エンティティと関係抽出(JERE)は、低品質のトレーニングデータによる弱い一般化の影響を受けやすい。
データ拡張は、異なるドメインにわたるモデルの一般化を強化するための一般的な戦略である。
しかし、既存のデータ拡張手法は、しばしばテキストの関連性を見落とし、意味構造や依存関係を乱す可能性があるため、モデル一般化を改善するために効果的な拡張データを生成することは困難である。
本稿では,拡張中のテキストのセマンティック構造を保存するための新しい手法である構造化意味データ拡張(SSDAU)を提案する。
SSDAUはエンティティラベルに基づいてテキストをセグメンテーションし、コンテキスト認識を通じてエンティティの意味的特徴をキャプチャするエンコーダを使用する。
その後、エンティティセマンティック再構築を行い、拡張データを生成する。
意味的に類似したエンティティを区別するために、SSDAUはコンテキスト化された埋め込みを従来の類似度スコアで融合する。
潜在的な話題の曖昧さと情報損失を軽減するため,無関係なトピックをフィルタリングし,トピックの一貫性を確保するためにBERTTopicモデルを適用した。
アノテーションタイプが異なるデータセット上でSSDAUを評価し,5つの代表的なJEREモデルの性能を7つの一般的なデータ拡張ベースラインと比較した。
実験の結果、SSDAUは曖昧さに対して優れた堅牢性を持つセマンティック一貫性のあるデータを生成する(F1は8.26%減少し、ベースラインは31.91%減少)。
関連論文リスト
- R&D: Balancing Reliability and Diversity in Synthetic Data Augmentation for Semantic Segmentation [0.0]
制御可能な拡散モデルを統合する新しい合成データ拡張パイプラインを提案する。
我々のアプローチは多様性と信頼性のバランスをとり、合成データと実データとのギャップを効果的に埋める。
論文 参考訳(メタデータ) (2026-03-19T02:40:26Z) - Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Explicit and Implicit Data Augmentation for Social Event Detection [61.929049997741735]
社会的事象の検出には、ソーシャルメディアから重要な出来事を特定し分類することが含まれる。
ソーシャルイベント検出のための拡張フレームワーク(SED-Aug)を提案する。
SED-Augは、明示的なテキストベースと暗黙的な特徴空間拡張を組み合わせて、データの多様性を高め、堅牢性をモデル化する。
論文 参考訳(メタデータ) (2025-09-04T13:26:24Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Entity-to-Text based Data Augmentation for various Named Entity
Recognition Tasks [96.52649319569535]
本稿では,Entity-to-Textベースの新しいデータ拡張手法であるEnTDAを提案する。
テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。
論文 参考訳(メタデータ) (2022-10-19T07:24:40Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。