論文の概要: CRMSP: A Semi-supervised Approach for Key Information Extraction with Class-Rebalancing and Merged Semantic Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2407.15873v1
- Date: Fri, 19 Jul 2024 07:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 21:44:53.238718
- Title: CRMSP: A Semi-supervised Approach for Key Information Extraction with Class-Rebalancing and Merged Semantic Pseudo-Labeling
- Title(参考訳): CRMSP: クラスリバランシングとマージされたセマンティック擬似ラベルによる鍵情報抽出のための半教師付きアプローチ
- Authors: Qi Zhang, Yonghong Song, Pengcheng Guo, Yangyang Hui,
- Abstract要約: CRMSP(Semantic Pseudo-Labeling)によるクラスリバランシングとマージされたセマンティックPseudo-Labeling)によるKIEのための新しい半教師付きアプローチを提案する。
CRPモジュールは、擬似ラベルを再バランスするために再重み付け要素を導入し、テールクラスに注意を向ける。
MSPモジュールはMerged Prototypes (MP) にサンプルを割り当てることでラベルなしデータのテール特徴をクラスタ化する
- 参考スコア(独自算出の注目度): 10.886757419138343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing demand in the field of KIE (Key Information Extraction) to apply semi-supervised learning to save manpower and costs, as training document data using fully-supervised methods requires labor-intensive manual annotation. The main challenges of applying SSL in the KIE are (1) underestimation of the confidence of tail classes in the long-tailed distribution and (2) difficulty in achieving intra-class compactness and inter-class separability of tail features. To address these challenges, we propose a novel semi-supervised approach for KIE with Class-Rebalancing and Merged Semantic Pseudo-Labeling (CRMSP). Firstly, the Class-Rebalancing Pseudo-Labeling (CRP) module introduces a reweighting factor to rebalance pseudo-labels, increasing attention to tail classes. Secondly, we propose the Merged Semantic Pseudo-Labeling (MSP) module to cluster tail features of unlabeled data by assigning samples to Merged Prototypes (MP). Additionally, we designed a new contrastive loss specifically for MSP. Extensive experimental results on three well-known benchmarks demonstrate that CRMSP achieves state-of-the-art performance. Remarkably, CRMSP achieves 3.24% f1-score improvement over state-of-the-art on the CORD.
- Abstract(参考訳): 半教師付き学習を応用して人力とコストを節約するキー情報抽出(Key Information extract)の分野では,完全教師付き手法を用いた文書データのトレーニングには,労働集約的な手作業のアノテーションが必要であるため,需要が高まっている。
SSLをKIEに適用する主な課題は,(1)長期分布におけるテールクラスの信頼性の過小評価,(2)クラス内コンパクト性とクラス間分離性を達成することの難しさである。
これらの課題に対処するため、我々は、クラス・リバランシングと統合セマンティック・擬似ラベル(CRMSP)によるKIEのための、新しい半教師付きアプローチを提案する。
第一に、CRP(Class-Rebalancing Pseudo-Labeling)モジュールは擬似ラベルの再バランスを緩和し、テールクラスに注意を向ける。
次に,Merged Semantic Pseudo-Labeling (MSP) モジュールを提案し,Merged Prototypes (MP) にサンプルを割り当てることで,ラベルなしデータのテール特徴をクラスタリングする。
さらに,MSPに特有な新たなコントラスト損失を設計した。
3つのよく知られたベンチマークの大規模な実験結果は、CRMSPが最先端のパフォーマンスを達成していることを示している。
注目すべきなのは、CRMSPはCORDの最先端よりも3.24%のf1スコアの改善を実現していることだ。
関連論文リスト
- Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - FedAnchor: Enhancing Federated Semi-Supervised Learning with Label
Contrastive Loss for Unlabeled Clients [19.3885479917635]
Federated Learning(FL)は、デバイス間で共有されたグローバルモデルの協調トレーニングを促進する分散学習パラダイムである。
本稿では,サーバ上のラベル付きアンカーデータにのみ訓練された分類ヘッドと組み合わせて,アンカーヘッドと呼ばれるユニークな二重ヘッド構造を導入する,革新的なFSSL手法であるFedAnchorを提案する。
提案手法は, 高信頼度モデル予測サンプルに基づいて, 疑似ラベル技術に係わる検証バイアスと過度に適合する問題を緩和する。
論文 参考訳(メタデータ) (2024-02-15T18:48:21Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss [43.39035144463951]
Momentum PL (MPL) は、ラベルのないデータに基づいてコネクショニスト時間分類 (CTC) に基づくモデルを訓練する。
CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRによく適している。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入し、MPLを強化することを提案する。
論文 参考訳(メタデータ) (2022-11-02T00:18:25Z) - UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised
Semantic Segmentation [2.6324267940354655]
半教師付きセマンティックセグメンテーションのための新しい学習フレームワークUncertainty Guided Cross-head Co-training(UCC)を提案する。
当社のフレームワークでは,共有エンコーダ内の弱体化と強体化を導入して,一貫性と自己学習のメリットを自然に組み合わせたコトレーニングを実現している。
我々の手法は、最先端の半教師付きセマンティックセグメンテーション法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-05-20T17:43:47Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to
Spurious Correlations [59.24031936150582]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。