論文の概要: From scratch to silver: Creating trustworthy training data for patent-SDG classification using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.09303v1
- Date: Thu, 11 Sep 2025 09:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.322927
- Title: From scratch to silver: Creating trustworthy training data for patent-SDG classification using Large Language Models
- Title(参考訳): スクラッチから銀へ:大規模言語モデルを用いた特許-SDG分類のための信頼できるトレーニングデータの作成
- Authors: Grazia Sveva Ascione, Nicolò Tamagnone,
- Abstract要約: 国連持続可能な開発目標(SDG)との関連性によって特許を分類することは、イノベーションが世界的課題にどう対処するかを追跡する上で不可欠である。
本稿では,特許から科学出版物への引用(NPL引用)をノイズのある初期信号として用いて,特許とSDGの分類を弱い監視問題とする。
本研究では,大規模言語モデル(LLM)を用いて特許や論文から構造化概念を抽出する複合ラベリング機能(LF)を開発した。
- 参考スコア(独自算出の注目度): 0.6727984016678534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classifying patents by their relevance to the UN Sustainable Development Goals (SDGs) is crucial for tracking how innovation addresses global challenges. However, the absence of a large, labeled dataset limits the use of supervised learning. Existing methods, such as keyword searches, transfer learning, and citation-based heuristics, lack scalability and generalizability. This paper frames patent-to-SDG classification as a weak supervision problem, using citations from patents to SDG-tagged scientific publications (NPL citations) as a noisy initial signal. To address its sparsity and noise, we develop a composite labeling function (LF) that uses large language models (LLMs) to extract structured concepts, namely functions, solutions, and applications, from patents and SDG papers based on a patent ontology. Cross-domain similarity scores are computed and combined using a rank-based retrieval approach. The LF is calibrated via a custom positive-only loss that aligns with known NPL-SDG links without penalizing discovery of new SDG associations. The result is a silver-standard, soft multi-label dataset mapping patents to SDGs, enabling the training of effective multi-label regression models. We validate our approach through two complementary strategies: (1) internal validation against held-out NPL-based labels, where our method outperforms several baselines including transformer-based models, and zero-shot LLM; and (2) external validation using network modularity in patent citation, co-inventor, and co-applicant graphs, where our labels reveal greater thematic, cognitive, and organizational coherence than traditional technological classifications. These results show that weak supervision and semantic alignment can enhance SDG classification at scale.
- Abstract(参考訳): 国連持続可能な開発目標(SDG)との関連性によって特許を分類することは、イノベーションが世界的課題にどう対処するかを追跡する上で不可欠である。
しかし、ラベル付きデータセットが存在しないことは、教師付き学習の使用を制限する。
キーワード検索、移動学習、引用に基づくヒューリスティックといった既存の手法はスケーラビリティと一般化性に欠ける。
本論文は,特許からSDGへの分類を,特許からSDGにタグ付けされた科学出版物(NPL引用)への引用をノイズのある初期信号として用いて,弱い監視問題として捉えている。
特許オントロジーに基づく特許やSDG論文から,大規模言語モデル(LLM)を用いて構造化概念(機能,ソリューション,アプリケーション)を抽出する複合ラベリング機能(LF)を開発した。
ランクに基づく検索手法を用いて、ドメイン間の類似度スコアを計算し、組み合わせる。
LFは、既知のNPL-SDGリンクと一致する独自の正のみの損失によって調整され、新しいSDGアソシエーションの発見をペナル化しない。
その結果、銀標準でソフトなマルチラベルデータセットの特許をSDGにマッピングし、効果的なマルチラベル回帰モデルのトレーニングを可能にする。
1) 提案手法はトランスフォーマーベースモデルやゼロショットLCMなど,いくつかのベースラインを上回り,(2) 特許引用,共発明,共応用グラフにおけるネットワークモジュール性を用いた外部検証により,従来の技術分類よりもテーマ,認知,組織的コヒーレンスを明らかにする。
これらの結果から,SDG分類の大規模化に寄与する可能性が示唆された。
関連論文リスト
- An automatic patent literature retrieval system based on LLM-RAG [2.035980938365065]
本研究では,LLMとRetrievalAugmented Generation RAG技術を組み合わせた自動特許検索フレームワークを提案する。
システムは,1) 特許データの標準化のための事前処理モジュール,2) LLM生成埋め込みを利用した高効率ベクトル検索エンジン,3) 外部文書検索とコンテキスト対応応答生成を組み合わせたRAGenhancedクエリモジュールの3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-11T02:39:16Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP [15.780915391081734]
低ショットオープンセット領域一般化(LSOSDG)は、オープンセットドメイン一般化(ODG)と低ショット学習を統合する新しいパラダイムである。
提案するOSLOPROMPTは,CLIPのための先進的なプロンプトラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-03-20T12:51:19Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - RankMatch: A Novel Approach to Semi-Supervised Label Distribution
Learning Leveraging Inter-label Correlations [52.549807652527306]
本稿では,SSLDL (Semi-Supervised Label Distribution Learning) の革新的なアプローチである RankMatch を紹介する。
RankMatchは、ラベルのない大量のデータとともに、少数のラベル付き例を効果的に活用する。
我々はRandMatchに縛られる理論的な一般化を確立し、広範な実験を通じて既存のSSLDL法に対する性能上の優位性を実証した。
論文 参考訳(メタデータ) (2023-12-11T12:47:29Z) - Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。
現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。
疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T12:59:55Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。