論文の概要: When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2605.24296v2
- Date: Tue, 26 May 2026 03:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.063371
- Title: When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
- Title(参考訳): 合成特許データはいつ有効か : 低リソースマルチラベル分類におけるボリュームフィデリティトレードオフ
- Authors: Amirhossein Yousefiramandi, Ciaran Cooney,
- Abstract要約: BERT-for-PatentsのマイクロF1の改良は,主に体積効果を反映していることが示されている。
生のマイクロF1における分類性能を+0.58まで向上させるコーパスは、ジャカードオーバーラップ検索プロキシに悪影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The issues that must be considered regarding the utilization of synthetic data generated through LLMs for multilabel patent classification include (i) when the use of such data may help and (ii) why. Indeed, the former part appropriately adjusts for the possibility of improving results by an increase in sample size. The current experiment involves six open-source LLMs (from 3.8B to 12B parameters) for four real-data regimes in classification of 64 WIPO labels of assistive technologies. Both full-synthesis generation, conditioned on the label set, and paraphrasing methods are applied, with each used in combination with three classifier categories. It is shown that the claimed improvements in micro F1 for BERT-for-Patents from 0.120 to 0.702 mainly reflect a volume effect; indeed, replication with replacement in 165 examples produces 0.678. Thus, the improvement over the control is +0.024, while compared to the best baseline (focal loss reweighting) is +0.219. The second crucial point to consider here is that of evolving fidelity scores as the data generation regime varies. For low real-data regimes, the volume effect dominates and the correlation coefficient between maximum mean discrepancy (MMD) and classification performance equals r = +0.95. As more real data is used, the correlation becomes inverted and reaches r = -0.73 at the 1:10 regime (Fisher z = +6.47, p < 0.001, 95% CI on Delta r [ +0.96, +1.00 ]). In terms of a fixed budget allocation, combining real data (about 20-30%) with synthetic (70-80%) outperforms both purely synthetic and purely real strategies. Moreover, a corpus that allows for improvement in classification performance up to +0.58 in raw micro F1 may adversely affect a Jaccard-overlap retrieval proxy. Prompt-family variations for other genres may provide some explanation of the phenomenon, but using the standard-patent filter still decreases nDCG@10 by 26%.
- Abstract(参考訳): マルチラベル特許分類におけるLCMによる合成データの利用に関して考慮すべき課題は、以下を含む。
i)そのようなデータの使用が有効である場合
(二) なぜ?
実際、前部は、サンプルサイズの増加により結果を改善する可能性を適切に調整する。
現在の実験では、64のWIPOラベルのアシスト技術の分類において、4つの実データレギュレーションに対して6つのオープンソースLCM(3.8Bから12Bパラメータ)が組み込まれている。
ラベルセットに条件付けされた完全合成生成とパラフレーズ法の両方を適用し、それぞれが3つの分類器カテゴリと組み合わせて使用される。
BERT-for-Patents のマイクロ F1 が 0.120 から 0.702 に改善されたという主張は、主にボリューム効果を反映している。
したがって、制御に対する改善は+0.024であり、最高のベースライン(焦点損失再重み付け)は+0.219である。
ここで考慮すべき2つ目の重要なポイントは、データ生成体制が変化するにつれて、フィデリティスコアが進化することです。
低実データ状態の場合、体積効果は支配的であり、最大平均誤差(MMD)と分類性能の相関係数は r = +0.95 である。
より実際のデータが使われるようになると、相関は逆転し、1:10レジームで r = -0.73 に達する(Fisher z = +6.47, p < 0.001, 95% CI on Delta r [ +0.96, +1.00 ])。
固定予算割り当ての観点では、実際のデータ(約20-30%)と合成(70-80%)を組み合わせることは、純粋に合成された戦略と純粋に実際の戦略の両方より優れている。
さらに、生のマイクロF1における分類性能を+0.58まで向上させることができるコーパスは、ジャカードオーバーラップ検索プロキシに悪影響を及ぼす可能性がある。
他のジャンルのプロンプト・ファミリーのバリエーションは、この現象のいくつかの説明を提供するかもしれないが、標準のパタントフィルタを使用することで、nDCG@10を26%減少させる。
関連論文リスト
- Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering [0.0]
この研究は、113,148個の補助技術特許、46,069個の引用グラフ検索クエリ、および外部検証のための公開DAPFAMデータセットを使用する。
本フレームワークでは,引用に基づく検索,ハイブリッドスパース・デンス融合,5つのデータセットに対するマルチラベル分類,教師なしクラスタリング,6つのテキスト分割ビュー,ドメイン適応型4つのモデルの微調整,司法分析,DWPI(Derwent World Patents Index, Clarivate)の専門家によるコンテンツについて検討する。
論文 参考訳(メタデータ) (2026-05-22T23:51:13Z) - Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - Identifying Evidence-Based Nudges in Biomedical Literature with Large Language Models [2.2015514798912412]
我々は、非構造化バイオメディカル文献から証拠に基づく行動分類を識別し、抽出するスケーラブルなAI駆動システムを提案する。
栄養は微妙で非強制的な介入であり、選択を制限することなく行動に影響を与える。
論文 参考訳(メタデータ) (2026-02-10T22:36:07Z) - Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute [0.0]
本研究は,大規模言語モデル(LLM)が生成する合成物語が識別の安全性を向上するか否かを評価する。
10,382枚の合成ノートを,プライバシ保護型「テンプレートオンリー」システムを用いて生成した。
人工的な増強は曝露拡大に有効であるが, 代替的ではなく, 安全クリティカルな獣医の身元特定に有効であると考えられた。
論文 参考訳(メタデータ) (2026-01-13T19:35:25Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Revisiting Sparsity Constraint Under High-Rank Property in Partial Multi-Label Learning [48.528799044535155]
部分的マルチラベル学習(PML)は、各サンプルが候補ラベルセットと関連付けられたシナリオまで、マルチラベル学習パラダイムを拡張している。
既存のPML法はノイズラベル行列の空間性とグランドトラスラベル行列の低ランク性という2つの仮定に依存している。
本稿では,予測されたラベル行列に高階特性を付与しつつ,ノイズラベル行列に空間性制約を導入する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:25:50Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。