論文の概要: Fine-Tuning Over Architectural Complexity: Broad-Coverage PII Detection on PIIBench with DeBERTa
- arxiv url: http://arxiv.org/abs/2605.25816v1
- Date: Mon, 25 May 2026 13:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.128393
- Title: Fine-Tuning Over Architectural Complexity: Broad-Coverage PII Detection on PIIBench with DeBERTa
- Title(参考訳): 建築複合体の微調整:DeBERTaを用いたPIIBenchの広帯域PII検出
- Authors: Pritesh Jha,
- Abstract要約: PII検出システムは、狭いソースまたはドメイン境界内で頻繁に訓練され、異種テキストにデプロイする場合のカバレッジを制限する。
我々は,10個のソースデータセットに82個の保持されたエンティティタイプにまたがる修正されたマルチソースPIIBenchのモデル微調整について検討した。
直接トークン分類の微調整,ソース条件付き階層モデル(SC+H),3段階のカリキュラム拡張(SC+H+Curr)の3つのアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personally identifiable information (PII) detection systems are frequently trained within narrow source or domain boundaries, limiting coverage when deployed on heterogeneous text. We study model fine-tuning on a corrected multi-source PIIBench preparation spanning 82 retained entity types across ten source datasets. We evaluate three DeBERTa-based approaches: direct token classification fine-tuning, a source-conditioned hierarchical model (SC+H), and a three-phase curriculum extension (SC+H+Curr). Against eight published comparator systems on a reproducible 5,000-record held-out subset (test_5k), direct fine-tuned DeBERTa achieves F1 0.6476, while SC+H and the curriculum variant achieve 0.5899 and 0.2772 respectively; the strongest published comparator reaches only 0.1723. Because validation initially favoured SC+H, we perform a final streamed evaluation on the complete 100,002-record held-out split. Direct fine-tuning remains superior, achieving F1 0.6455 versus 0.5894 for SC+H. Entity-level analysis shows that direct fine tuning wins 54 of 82 fine entity types and all ten coarse groups by support-weighted entity F1, while SC+H retains localised advantages on 28 types. The results indicate that diverse task-specific training data and a simple weighted cross-entropy objective contribute more to broad-coverage PII detection than the tested architectural and curriculum complexity.
- Abstract(参考訳): 個人識別可能な情報(PII)検出システムは、狭いソースまたはドメイン境界内で頻繁に訓練され、異種テキストにデプロイされた場合のカバレッジを制限する。
我々は,10個のソースデータセットに82個の保持されたエンティティタイプにまたがる修正されたマルチソースPIIBenchのモデル微調整について検討した。
直接トークン分類の微調整,ソース条件付き階層モデル(SC+H),3段階のカリキュラム拡張(SC+H+Curr)の3つのアプローチを評価した。
再現可能な5,000レコードのホールドアウトサブセット(test_5k)上の8つのコンパレータシステムに対して、直接調整されたDeBERTaはF1 0.6476、SC+Hとカリキュラム変種はそれぞれ0.5899と0.2772に達し、最も強力なコンパレータは0.1723に達する。
バリデーションは当初SC+Hが好まれていたため,100,002レコードのホールドアウトスプリットにおける最終ストリーム評価を行った。
直接微調整は依然として優れており、SC+HではF1 0.6455、SC+Hでは0.5894である。
エンティティレベルの分析では,82種類のファインエンティティタイプのうち54と,サポート重み付きエンティティF1による10個の粗いグループすべてに対して,SC+Hは28種類のローカライズドアドバンテージを維持している。
その結果,多種多様なタスク固有トレーニングデータと単純な重み付きクロスエントロピー目的が,テストされたアーキテクチャやカリキュラムの複雑さよりも広い範囲のPII検出に寄与することが示唆された。
関連論文リスト
- The autoPET3 Challenge: Automated Lesion Segmentation in Whole-Body PET/CT $\unicode{x2013}$ Multitracer Multicenter Generalization [67.92281859568168]
第3回オートPETチャレンジ(MICCAI 2024)の設計と成果を報告する。
全身PET/CTにおける自動病変分割を, 構成的一般化条件下でベンチマークした。
トップランクのアルゴリズムは平均DSCが0.66、FNVが3.18mL、FPVが2.78mLである。
論文 参考訳(メタデータ) (2026-05-07T07:07:09Z) - Donor-Aware scRNA-seq Benchmarks for IBD Classification [0.0]
単細胞RNAシークエンシング(scRNA-seq)からのドナーレベルの疾患分類には、厳格なドナー認識クロスバリデーションが必要である。
2つの独立したIBDアトラスにまたがる3つの特徴表現を評価するドナー・アウェア・ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-05-05T02:13:43Z) - Paired-CSLiDAR: Height-Stratified Registration for Cross-Source Aerial-Ground LiDAR Pose Refinement [46.13526676100776]
Paired-CSLiDAR(英語版)は、シングルスキャンポーズリファインメントのためのクロスソース空地LiDARベンチマークである。
このベンチマークには6つの評価サイトで12,683組の地上空対が含まれている。
本稿では,RGSR(Residual-Guided Stratified Registration)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:14:20Z) - Quantum-Inspired Geometric Classification with Correlation Group Structures and VQC Decision Modeling [0.5039813366558307]
本稿では、相関群構造(CGR)、コンパクトなSWAPテストに基づく重複推定、選択的変分量子決定モデリングを統合した幾何駆動型量子インスピレーション型分類フレームワークを提案する。
CGRは特徴をアンカー中心の相関近傍に整理し、非線形で相関重み付き表現を生成する。
Credit Card Fraudデータセット(0.17%)では、Delta + VQCパイプラインが約0.85マイノリティリコールを約1.31%の警告レートで達成し、ROC-AUC 0.9249とPR-AUC 0.3251をフルデータセットで評価している。
論文 参考訳(メタデータ) (2026-04-02T11:50:29Z) - FUGC: Benchmarking Semi-Supervised Learning Methods for Cervical Segmentation [63.7829089874007]
本稿では,頚椎椎間板断裂における半教師あり学習のための最初のベンチマークであるFetal Ultrasound Grand Challenge (FUGC)を紹介する。
FUGCは、500のトレーニング画像、90の検証画像、300のテスト画像を含む890のTVSイメージのデータセットを提供する。
Dice similarity Coefficient (DSC), Hausdorff Distance (HD), and Runtime (RT), with a weighted combination of 0.4/0.4/0.2。
論文 参考訳(メタデータ) (2026-01-22T01:34:39Z) - A Comprehensive Forecasting-Based Framework for Time Series Anomaly Detection: Benchmarking on the Numenta Anomaly Benchmark (NAB) [0.0]
時系列異常検出は、現代のデジタルインフラにとって重要である。
本稿では,従来の手法をディープラーニングアーキテクチャと統合した予測ベースのフレームワークを提案する。
Numenta Anomaly Benchmark の最初の完全評価を行う。
論文 参考訳(メタデータ) (2025-10-13T08:31:42Z) - Segment-and-Classify: ROI-Guided Generalizable Contrast Phase Classification in CT Using XGBoost [7.689389068258514]
本研究は,別機関の3つの公開CTデータセットを利用した。
位相予測モデルはWAW-TACEデータセットに基づいてトレーニングされ、VinDr-MultiphaseとC4KC-KiTSデータセット上で検証された。
論文 参考訳(メタデータ) (2025-01-23T20:01:33Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。