論文の概要: AutoTail-BSFGM: Class-Balance-Aware Fine-Tuning for Chinese Scholarly Text Classification
- arxiv url: http://arxiv.org/abs/2606.03576v1
- Date: Tue, 02 Jun 2026 12:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.001259
- Title: AutoTail-BSFGM: Class-Balance-Aware Fine-Tuning for Chinese Scholarly Text Classification
- Title(参考訳): AutoTail-BSFGM:中国語学習テキスト分類のためのクラスベース対応ファインチューニング
- Authors: Anling Xiang, Yuwen Yang, Yang Shen,
- Abstract要約: AutoTail-BSFGMは学術テキスト分類のためのクラスバランス対応の微調整手法である。
CSLに基づく2つの課題について,67のラベルを持つ抽象学際課題と13のカテゴリを持つタイトル・ツー・カテゴリタスクについて評価を行った。
- 参考スコア(独自算出の注目度): 11.872017840435428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scholarly text classification supports literature organization, subject indexing, and research intelligence, but Chinese scholarly corpora often contain imbalanced and semantically adjacent disciplinary labels. We propose AutoTail-BSFGM, a class-balance-aware fine-tuning method that combines an automatically gated tail-prior adjustment, a weak Balanced Softmax auxiliary loss, and Fast Gradient Method adversarial regularization. The method changes only the training objective and procedure; inference uses the same single base-size encoder and linear classifier as the corresponding label-smoothed baseline. We evaluate the method on two CSL-based tasks: an abstract-to-discipline task with 67 labels and a title-to-category task with 13 categories. On the primary abstract task, AutoTail-BSFGM improves validation and lockbox accuracy under both Chinese RoBERTa-WWM and MacBERT-base. With MacBERT-base, validation accuracy increases by 0.83 percentage points and lockbox accuracy by 0.49 points, with a pooled paired McNemar signal on validation (p = 0.023). On the title task, the method improves validation accuracy by 0.70 points and validation balanced accuracy by 2.64 points; lockbox accuracy is approximately neutral while lockbox balanced accuracy improves by 1.22 points. The results support a bounded contribution: AutoTail-BSFGM improves class-balance-sensitive behavior and yields consistent gains for abstract-based scholarly classification, without uniformly improving every metric on every split.
- Abstract(参考訳): 学術テキスト分類は、文学組織、主題インデックス、研究インテリジェンスをサポートするが、中国の学術コーパスは、しばしば不均衡で意味的に隣接した学際的なラベルを含む。
本稿では,自動ゲート型テールプライア調整,ソフトマックス補助損失の弱さ,高速勾配法逆正則化を組み合わせた,クラスバランス対応の微調整手法であるAutoTail-BSFGMを提案する。
この方法は訓練対象と手順のみを変更し、推論は対応するラベル平滑なベースラインと同じ単一ベースサイズエンコーダと線形分類器を使用する。
CSLに基づく2つの課題について,67のラベルを持つ抽象学際課題と13のカテゴリを持つタイトル・ツー・カテゴリタスクについて評価を行った。
最初の抽象的なタスクでは、AutoTail-BSFGMは中国のRoBERTa-WWMとMacBERTベースの両方で検証とロックボックスの精度を改善している。
MacBERTベースの場合、検証精度は0.83ポイント向上し、ロックボックスの精度は0.49ポイント向上する。
タイトルタスクでは、検証精度が0.70ポイント、検証精度が2.64ポイント向上し、ロックボックスの精度はほぼ中立であり、ロックボックスのバランス精度が1.22ポイント向上する。
AutoTail-BSFGMは、クラスバランスに敏感な振る舞いを改善し、各分割におけるすべてのメトリックを均一に改善することなく、抽象ベースの学術分類において一貫した利得を得る。
関連論文リスト
- Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Natural Language Processing Models for Robust Document Categorization [0.0]
この研究は、AIを現実世界の自動化パイプラインに統合する際の重要な考慮事項である、分類精度と計算効率のバランスに重点を置いている。
Naive Bayes分類器、双方向LSTMネットワーク、微調整変圧器ベースBERTモデルの3つのモデルについて検討した。
BERTは99%を超える高い精度を達成したが、トレーニング時間を大幅に長くし、計算資源を大きくした。
BiLSTMモデルは強い妥協をもたらし、およそ98.56%の精度を達成し、適度なトレーニングコストを維持し、強い文脈理解を提供した。
論文 参考訳(メタデータ) (2026-02-23T20:33:22Z) - Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy [17.610305828703957]
言語モデルは、強力な数発の学習者であり、テキスト分類タスクにおいて、全体的な精度が良好である。
我々は、全体的な精度の追求は、強い階級を豊かにするだけでなく、弱い階級を育てることによってもたらされると信じている。
本論文では,文脈内学習クラス確率のフレキシブルな修正を可能にするHeaviside Step関数に基づくアンサンブルデバイアス法を提案する。
論文 参考訳(メタデータ) (2025-03-07T05:34:31Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing [9.637143119088426]
正誤例に対する頑健な基本分類器の信頼性差が,この改良の鍵となることを示す。
逆入力検出器を2つのベースモデルの混合を適応的に調整する混合ネットワークに適応させる。
提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、あるいは敵検出を改善する既存のあるいは将来の方法と連携して機能する。
論文 参考訳(メタデータ) (2023-01-29T22:05:28Z) - Cycle Label-Consistent Networks for Unsupervised Domain Adaptation [57.29464116557734]
ドメイン適応は、ラベル付きソースドメインを活用して、異なる分布を持つラベル付きターゲットドメインの分類子を学ぶことを目的としています。
本稿では,分類ラベルのサイクル整合性を利用して,シンプルで効率的な領域適応手法,すなわちCycle Label-Consistent Network (CLCN)を提案する。
MNIST-USPS-SVHN, Office-31, Office-Home, Image CLEF-DAベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-05-27T13:09:08Z) - Semi-Supervised Object Detection with Adaptive Class-Rebalancing
Self-Training [5.874575666947381]
本研究は、追加のラベル付きデータを用いて半教師付き物体検出を行い、検出性能を向上させることを目的とする。
疑似ラベルを生成するための新しい2段階フィルタリングアルゴリズムを提案する。
提案手法は,MS-COCOおよびVOCベンチマークの良好な改善を実現する。
論文 参考訳(メタデータ) (2021-07-11T12:14:42Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。