論文の概要: When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2605.24296v1
- Date: Fri, 22 May 2026 23:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.85251
- Title: When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
- Title(参考訳): 合成特許データはいつ有効か : 低リソースマルチラベル分類におけるボリュームフィデリティトレードオフ
- Authors: Amirhossein Yousefiramandi, Ciaran Cooney,
- Abstract要約: 低リソースマルチラベル特許分類における合成データの有用性について検討する。
合成特許のテキストはタスクに特化しており、ジャンルのみを刺激するには再現できない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study when LLM-generated synthetic data helps low-resource multi-label patent classification, separating true synthetic value from the confound that larger augmented sets can win by volume alone. Across six open-source LLMs (3.8-12B), four real-data regimes, 64 WIPO assistive-technology labels, two generation strategies, and three classifier families, the headline BERT-for-Patents micro-F1 jump from 0.120 to 0.702 is largely volume-driven. A duplicate-to-match real-only control that resamples 165 patents to the augmented size reaches 0.678; the controlled synthetic gain is only +0.024 over this control, but +0.219 over focal-loss reweighting, the strongest non-augmentation baseline. The main finding is that fidelity metrics change meaning with scale: at extreme scarcity, MMD correlates positively with classification gain (r=+0.95), but at 1:10 the relation flips (r=-0.73; Fisher z=+6.47, p<0.001). Fixed-budget mixing finds a 20-30% real / 70-80% synthetic optimum; paraphrase scaling collapses from a 165-document seed; and shuffled mixing beats curriculum ordering, ensembling, and classifier-based filtering. Leakage controls -- label-name masking, instruction-level label removal, fine-grained evaluation, and keyword-overlap audits -- argue against label-string dependence as the main driver for BERT-for-Patents. The apparent ModernBERT collapse under label removal is traced to a Flash-Attention-2 + bf16 numerical artifact, recovering 65% of lost performance with fp32 eager attention. Finally, the same corpus that improves classification by up to +0.58 raw micro-F1 hurts a Jaccard-label-overlap retrieval proxy; even a standard-patent-only filter leaves a 26% nDCG@10 drop. Thus, synthetic patent text is task- and metric-specific, not reducible to prompt genre alone.
- Abstract(参考訳): LLM生成合成データが低リソース多ラベル特許分類に役立ち、より大きな拡張集合が体積だけで勝てるという欠点から真の合成値を分離する方法について検討する。
6つのオープンソースLCM(3.8-12B)、4つの実データ体制、64のWIPO補助技術ラベル、2つの世代戦略、3つの分類ファミリ、見出しBERT-for-Patents micro-F1が0.120から0.702にジャンプする。
165の特許を拡張サイズに再サンプリングする重複するリアルタイム制御は、0.678に達し、制御された合成ゲインは、この制御に対して+0.024でしかなく、フォーカスロス再重み付けよりも+0.219で最強の非強化ベースラインである。
MMDは極度の希少度では分類ゲイン(r=+0.95)と正に相関するが、1:10では関係が反転する(r=-0.73; Fisher z=+6.47, p<0.001)。
固定予算混合は、20-30%のリアル/70-80%の合成最適値、パラフレーズスケーリングは165文書のシードから崩壊し、シャッフルミキシングはカリキュラムのオーダリング、アンサンブル、分類器ベースのフィルタリングに勝る。
ラベル名マスキング、命令レベルのラベル除去、きめ細かい評価、キーワードオーバーラップ監査といったリークコントロールは、BERT-for-Patentのメインドライバとしてラベルストリング依存に反対している。
ラベル除去時のModernBERTの崩壊はFlash-Attention-2 + bf16の数値アーティファクトに遡り、fp32の注意を引いて性能の65%を回復した。
最後に、最大0.58個のmicro-F1の分類を改善する同じコーパスは、Jaccard-label-overlap検索プロキシを損なう。
したがって、合成特許のテキストはタスク特有であり、ジャンルのみを刺激するには再現できない。
関連論文リスト
- Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering [0.0]
この研究は、113,148個の補助技術特許、46,069個の引用グラフ検索クエリ、および外部検証のための公開DAPFAMデータセットを使用する。
本フレームワークでは,引用に基づく検索,ハイブリッドスパース・デンス融合,5つのデータセットに対するマルチラベル分類,教師なしクラスタリング,6つのテキスト分割ビュー,ドメイン適応型4つのモデルの微調整,司法分析,DWPI(Derwent World Patents Index, Clarivate)の専門家によるコンテンツについて検討する。
論文 参考訳(メタデータ) (2026-05-22T23:51:13Z) - Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - Identifying Evidence-Based Nudges in Biomedical Literature with Large Language Models [2.2015514798912412]
我々は、非構造化バイオメディカル文献から証拠に基づく行動分類を識別し、抽出するスケーラブルなAI駆動システムを提案する。
栄養は微妙で非強制的な介入であり、選択を制限することなく行動に影響を与える。
論文 参考訳(メタデータ) (2026-02-10T22:36:07Z) - Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute [0.0]
本研究は,大規模言語モデル(LLM)が生成する合成物語が識別の安全性を向上するか否かを評価する。
10,382枚の合成ノートを,プライバシ保護型「テンプレートオンリー」システムを用いて生成した。
人工的な増強は曝露拡大に有効であるが, 代替的ではなく, 安全クリティカルな獣医の身元特定に有効であると考えられた。
論文 参考訳(メタデータ) (2026-01-13T19:35:25Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Revisiting Sparsity Constraint Under High-Rank Property in Partial Multi-Label Learning [48.528799044535155]
部分的マルチラベル学習(PML)は、各サンプルが候補ラベルセットと関連付けられたシナリオまで、マルチラベル学習パラダイムを拡張している。
既存のPML法はノイズラベル行列の空間性とグランドトラスラベル行列の低ランク性という2つの仮定に依存している。
本稿では,予測されたラベル行列に高階特性を付与しつつ,ノイズラベル行列に空間性制約を導入する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:25:50Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。