論文の概要: SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction
- arxiv url: http://arxiv.org/abs/2605.23440v4
- Date: Thu, 28 May 2026 10:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.542072
- Title: SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction
- Title(参考訳): SSDAU:ジョイントエンティティとリレーショナル抽出のための構造化意味データ拡張
- Authors: Jiawei He, Mengyu Shi, Jiawei Liu, Dong Sun, Chunrong Fang, Xikai Yang, Zhijie Wang, Lei Ma, Zhenyu Chen,
- Abstract要約: 拡張中の3つの意味構造を保存するために,textbfStructured Semantic Data Augmentation (SSDAU)を提案する。
SSDAUはエンティティラベルでテキストをセグメンテーションし、コンテキスト認識エンコーディングを通じてセマンティックな特徴をキャプチャし、エンティティセマンティクスを再構成して拡張データを生成する。
- 参考スコア(独自算出の注目度): 22.034753239775426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint Entity and Relation Extraction (JERE) is highly sensitive to training data quality, making data augmentation a natural way to improve generalization. However, existing augmentation methods often weaken entity relevance and disrupt semantic structure, limiting their effectiveness for JERE. In this paper, we propose \textbf{Structured Semantic Data Augmentation (SSDAU)}, a method designed to preserve triple-aware semantic structure during augmentation. SSDAU segments text by entity labels, captures semantic features through context-aware encoding, and restructures entity semantics to generate augmented data. To distinguish semantically similar entities, SSDAU combines contextualized embeddings with traditional similarity scores. To reduce topic inconsistency, we apply BERTopic-based filtering to remove irrelevant augmentations. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular augmentation baselines. Experiments show that SSDAU generates semantically consistent data, is more robust to ambiguity than non-LLM methods (8.95\% vs. 23.58\% average relative F1 decrease), and significantly outperforms strong alternatives in most settings.
- Abstract(参考訳): 統合エンティティと関係抽出(JERE)は、データ品質のトレーニングに非常に敏感であり、データの拡張が一般化を改善する自然な方法になる。
しかし、既存の拡張手法はしばしばエンティティの関連性を弱め、意味構造を乱し、JEREの有効性を制限している。
本稿では,拡張中に三重認識のセマンティック構造を保存する方法として, SSDAU(textbf{Structured Semantic Data Augmentation)を提案する。
SSDAUはエンティティラベルでテキストをセグメンテーションし、コンテキスト認識エンコーディングを通じてセマンティックな特徴をキャプチャし、エンティティセマンティクスを再構成して拡張データを生成する。
意味的に類似したエンティティを区別するために、SSDAUはコンテキスト化された埋め込みと従来の類似度スコアを組み合わせる。
トピックの不整合を低減するため、BERTopicベースのフィルタリングを用いて無関係な拡張を除去する。
アノテーションタイプが異なるデータセット上でSSDAUを評価し,5つの代表的なJEREモデルの性能を7つの拡張ベースラインと比較した。
実験の結果、SSDAUは意味的に一貫したデータを生成し、非LLM法よりもあいまいさが強く(8.95\%対23.58\%の平均相対F1の減少)、ほとんどの設定では強力な代替手段よりもはるかに優れていることが示された。
関連論文リスト
- R&D: Balancing Reliability and Diversity in Synthetic Data Augmentation for Semantic Segmentation [0.0]
制御可能な拡散モデルを統合する新しい合成データ拡張パイプラインを提案する。
我々のアプローチは多様性と信頼性のバランスをとり、合成データと実データとのギャップを効果的に埋める。
論文 参考訳(メタデータ) (2026-03-19T02:40:26Z) - Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Explicit and Implicit Data Augmentation for Social Event Detection [61.929049997741735]
社会的事象の検出には、ソーシャルメディアから重要な出来事を特定し分類することが含まれる。
ソーシャルイベント検出のための拡張フレームワーク(SED-Aug)を提案する。
SED-Augは、明示的なテキストベースと暗黙的な特徴空間拡張を組み合わせて、データの多様性を高め、堅牢性をモデル化する。
論文 参考訳(メタデータ) (2025-09-04T13:26:24Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Entity-to-Text based Data Augmentation for various Named Entity
Recognition Tasks [96.52649319569535]
本稿では,Entity-to-Textベースの新しいデータ拡張手法であるEnTDAを提案する。
テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。
論文 参考訳(メタデータ) (2022-10-19T07:24:40Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。