論文の概要: Citation-Driven Multi-View Training for Patent Embeddings: QaECTER and Sophia-Bench
- arxiv url: http://arxiv.org/abs/2604.22897v1
- Date: Fri, 24 Apr 2026 12:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.039539
- Title: Citation-Driven Multi-View Training for Patent Embeddings: QaECTER and Sophia-Bench
- Title(参考訳): 特許埋め込みのための循環駆動型マルチビュートレーニング:QaECTERとSophia-Bench
- Authors: Younes Djemmal, You Zuo, Kim Gerdes, Kirian Guiller,
- Abstract要約: 大規模な特許検索ベンチマークであるSophiabenchを紹介する。
また、特許引用グラフに基づいて訓練されたコンパクトな埋め込みモデルであるQaECTERを紹介する。
どちらのベンチマークも、大規模な特許検索システムへの実践的な展開のために設計されている。
- 参考スコア(独自算出の注目度): 1.7299359373305296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patent retrieval underpins critical decisions in innovation, examination, and IP strategy, yet progress has been hampered by the absence of benchmarks that reflect the diversity of real world search scenarios. We address this gap with two contributions. First, we introduce Sophiabench, a large-scale patent retrieval benchmark comprising 10,000 queries and 75,000 corpus documents stratified across ten years, eight IPC technology sections, and twelve filing jurisdictions. Unlike prior benchmarks, Sophia-bench tests retrieval using 12 different query types-from structured patent fields to AI-generated summaries-and evaluates results against citation-based ground truth enhanced with a novel domain-relevance metric (InScope). Together, these enable systematic measurement of how well models perform across query types, technology domains, and jurisdictions. Second, we introduce QaECTER, a 344M-parameter embedding model trained on patent citation graphs and multi-view self-alignment. Despite its compact size, QaECTER establishes a new state of the art for patent retrieval. It outperforms the \#1 model on the English retrieval text embedding benchmark (RTEB), a model 23x larger, as well as all existing patent specific models across every query type, IPC section, and jurisdiction on Sophia-bench, with gains of up to 7.2% average NDCG@10 over the next-best model. These results are confirmed on an independent external benchmark, where QaECTER surpasses all prior models without requiring task-specific instruction prompts. Both the benchmark and the model are designed for practical deployment in large-scale patent search systems.
- Abstract(参考訳): 特許検索は、イノベーション、検査、IP戦略において重要な決定を下しているが、現実の検索シナリオの多様性を反映したベンチマークが欠如しているため、進歩は妨げられている。
このギャップに2つのコントリビューションで対処します。
まず、Sophiabenchを紹介します。これは10年にわたって階層化された1万のクエリと75,000のコーパスドキュメントと8つのITC技術セクション、12の出願権を含む大規模な特許検索ベンチマークです。
従来のベンチマークとは異なり、Sophia-benchテストは構造化特許フィールドからAI生成要約まで12種類のクエリタイプを使用して検索し、新しいドメイン関連指標(InScope)で強化された引用ベース基底真理に対して結果を評価する。
これらの組み合わせにより、クエリタイプ、技術ドメイン、および管轄領域でモデルがどのようにうまく機能するかを体系的に測定できる。
第2に、特許引用グラフとマルチビュー自己アライメントに基づいてトレーニングされた344Mパラメトリック埋め込みモデルであるQaECTERを紹介する。
コンパクトなサイズにもかかわらず、QaECTERは特許取得のための新しい最先端技術を確立している。
英検索テキスト埋め込みベンチマーク(RTEB)では、23倍のモデルである「#1」モデルと、全てのクエリタイプ、IPCセクション、ソフィア・ベンチの管轄領域における既存の特許特有モデルに勝り、次のベストモデルよりも平均7.2%のNDCG@10が上昇する。
これらの結果は、タスク固有の命令プロンプトを必要とせずに、QaECTERがすべての先行モデルを上回る独立した外部ベンチマークで確認される。
ベンチマークとモデルの両方は、大規模特許検索システムにおける実用的展開のために設計されている。
関連論文リスト
- MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - OpenOneRec Technical Report [99.17075873619352]
OneRecシリーズは、断片化されたレコメンデーションパイプラインをエンドツーエンドの生成フレームワークにうまく統合した。
OneRec Foundation (1.7B と 8B) は、新しい最先端(SOTA)を確立するモデルのファミリであり、RecIF-Benchのすべてのタスクにまたがる結果である。
Amazonベンチマークに移行すると、当社のモデルは10種類のデータセットに対して平均26.8%のRecall@10の改善により、最強のベースラインを越えた。
論文 参考訳(メタデータ) (2025-12-31T10:15:53Z) - Towards Automated Quality Assurance of Patent Specifications: A Multi-Dimensional LLM Framework [0.5534764384104999]
AI草案作成ツールは特許作成において注目されているが、AIが生成する特許内容の品質の体系的評価は、重要な研究ギャップを示している。
本稿では,規制コンプライアンス,技術的コヒーレンス,図形参照整合性検出モジュールを用いた特許評価を提案する。
このフレームワークは、2つの特許草案作成ツールから80人の人間が認可し、80人のAIが生成する特許からなる包括的なデータセットで検証されている。
論文 参考訳(メタデータ) (2025-10-29T11:20:18Z) - PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding [1.0742675209112622]
特許テキストの埋め込みは、先行技術検索、技術造園、および特許分析を可能にするが、既存のベンチマークでは特許固有の課題を適切に捉えていない。
PatenTEBは、検索、分類、パラフレーズ、クラスタリングにまたがる15のタスクからなる総合的なベンチマークである。
我々は,最大4096個のトークンを持つ67万から344万のパラメータにまたがるマルチタスクトレーニングにより,ピアテムドモデルファミリを開発した。
論文 参考訳(メタデータ) (2025-10-25T12:01:46Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - PaECTER: Patent-level Representation Learning using Citation-informed Transformers [0.1957338076370071]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z) - Deep learning-based citation recommendation system for patents [5.376388266200792]
我々は,Google Big Queryサービスから約11万件の特許に関するテキスト情報とメタデータを含む,PatentNetという新しいデータセットを提案する。
従来の提案手法と比較して,提案手法はテストセット上での平均相反ランク0.2377を達成している。
論文 参考訳(メタデータ) (2020-10-21T12:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。