論文の概要: Patent Representation Learning via Self-supervision
- arxiv url: http://arxiv.org/abs/2511.10657v1
- Date: Mon, 03 Nov 2025 09:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.231823
- Title: Patent Representation Learning via Self-supervision
- Title(参考訳): 自己監督による特許表現学習
- Authors: You Zuo, Kim Gerdes, Eric Villemonte de La Clergerie, Benoît Sagot,
- Abstract要約: 本稿では,同一文書内からの複数のビューを活用することで,特許の埋め込みを学習するための対照的な学習フレームワークを提案する。
まず、SimCSEスタイルのドロップアウト拡張の特許固有の障害モードを特定し、セマンティック結合を欠く過度に均一な埋め込みを生成する。
この設計は、自然意味と構造的多様性を導入し、過分散を緩和し、グローバルな構造と局所的な連続性の両方をよりよく保存する埋め込みをもたらす。
- 参考スコア(独自算出の注目度): 14.128643457340617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple yet effective contrastive learning framework for learning patent embeddings by leveraging multiple views from within the same document. We first identify a patent-specific failure mode of SimCSE style dropout augmentation: it produces overly uniform embeddings that lose semantic cohesion. To remedy this, we propose section-based augmentation, where different sections of a patent (e.g., abstract, claims, background) serve as complementary views. This design introduces natural semantic and structural diversity, mitigating over-dispersion and yielding embeddings that better preserve both global structure and local continuity. On large-scale benchmarks, our fully self-supervised method matches or surpasses citation-and IPC-supervised baselines in prior-art retrieval and classification, while avoiding reliance on brittle or incomplete annotations. Our analysis further shows that different sections specialize for different tasks-claims and summaries benefit retrieval, while background sections aid classification-highlighting the value of patents' inherent discourse structure for representation learning. These results highlight the value of exploiting intra-document views for scalable and generalizable patent understanding.
- Abstract(参考訳): 本稿では,同一文書内の複数のビューを活用することで,特許の埋め込みを学習するための,シンプルかつ効果的な比較学習フレームワークを提案する。
まず、SimCSEスタイルのドロップアウト拡張の特許固有の障害モードを特定し、セマンティック結合を欠く過度に均一な埋め込みを生成する。
これを改善するために,特許の異なるセクション(例えば,要約,クレーム,背景)が補完的なビューとして機能するセクションベースの拡張を提案する。
この設計は、自然意味と構造的多様性を導入し、過分散を緩和し、グローバルな構造と局所的な連続性の両方をよりよく保存する埋め込みをもたらす。
大規模ベンチマークでは,完全自己管理手法は先行技術検索と分類において,引用とIPCが指示するベースラインに適合するか,あるいは超越するが,不安定なアノテーションや不完全アノテーションへの依存は避ける。
分析の結果,異なるタスク定義や要約を専門とする異なるセクションが検索に役立ち,背景セクションが特許固有の言論構造を表現学習に役立てることが示唆された。
これらの結果は、スケーラブルで一般化可能な特許理解のためにドキュメント内ビューを活用することの価値を強調している。
関連論文リスト
- HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization [0.0]
本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。
この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
論文 参考訳(メタデータ) (2025-03-13T13:30:54Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。