論文の概要: PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
- arxiv url: http://arxiv.org/abs/2510.22264v1
- Date: Sat, 25 Oct 2025 12:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.009287
- Title: PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
- Title(参考訳): PatenTEB:特許テキスト埋め込みのための総合ベンチマークとモデルファミリー
- Authors: Iliass Ayaou, Denis Cavallucci,
- Abstract要約: 特許テキストの埋め込みは、先行技術検索、技術造園、および特許分析を可能にするが、既存のベンチマークでは特許固有の課題を適切に捉えていない。
PatenTEBは、検索、分類、パラフレーズ、クラスタリングにまたがる15のタスクからなる総合的なベンチマークである。
我々は,最大4096個のトークンを持つ67万から344万のパラメータにまたがるマルチタスクトレーニングにより,ピアテムドモデルファミリを開発した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Patent text embeddings enable prior art search, technology landscaping, and patent analysis, yet existing benchmarks inadequately capture patent-specific challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15 tasks across retrieval, classification, paraphrase, and clustering, with 2.06 million examples. PatenTEB employs domain-stratified splits, domain specific hard negative mining, and systematic coverage of asymmetric fragment-to-document matching scenarios absent from general embedding benchmarks. We develop the patembed model family through multi-task training, spanning 67M to 344M parameters with context lengths up to 4096 tokens. External validation shows strong generalization: patembed-base achieves state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM. Systematic ablations reveal that multi-task training improves external generalization despite minor benchmark costs, and that domain-pretrained initialization provides consistent advantages across task families. All resources will be made available at https://github.com/iliass-y/patenteb. Keywords: patent retrieval, sentence embeddings, multi-task learning, asymmetric retrieval, benchmark evaluation, contrastive learning.
- Abstract(参考訳): 特許テキストの埋め込みは、先行技術検索、技術造園、および特許分析を可能にするが、既存のベンチマークでは特許固有の課題を適切に捉えていない。
PatenTEBは、検索、分類、パラフレーズ、クラスタリングにまたがる15のタスクからなる総合的なベンチマークである。
PatenTEBは、ドメイン階層化された分割、ドメイン固有のハードネガティブマイニング、および一般的な埋め込みベンチマークから欠落した非対称な断片と文書のマッチングシナリオの体系的なカバレッジを採用している。
我々は,最大4096個のトークンを持つ67万から344万のパラメータにまたがるマルチタスクトレーニングにより,ピアテムドモデルファミリを開発した。
patembed-base は MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 以前の最高値)で最先端を実現し、patembed-large は DAPFAM で0.377 NDCG@100 を達成する。
マルチタスクトレーニングは、ベンチマークコストが小さいにもかかわらず外部一般化を改善し、ドメイン事前初期化はタスクファミリ間で一貫した優位性をもたらす。
すべてのリソースはhttps://github.com/iliass-y/patenteb.comで利用可能になる。
キーワード:特許検索、文の埋め込み、マルチタスク学習、非対称検索、ベンチマーク評価、コントラスト学習。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval [1.1852406625172218]
IPC3オーバーラップ方式によって定義された明示的なINドメインとoutドメインのパーティションを持つ家族レベルのベンチマークであるDAPFAMを紹介する。
このデータセットには1,247のクエリーファミリと45,336のターゲットファミリが含まれており、国際的冗長性を低減している。
語彙 (BM25) と高密度 (トランスフォーマー) バックエンド, 文書および通過レベルの検索, 複数クエリおよび文書表現, 集約戦略, ハイブリッド融合にまたがる249の制御実験を行った。
論文 参考訳(メタデータ) (2025-06-27T11:34:51Z) - PatentMind: A Multi-Aspect Reasoning Graph for Patent Similarity Evaluation [35.13558856456741]
特許類似性評価は知的財産分析において重要な役割を果たす。
マルチアスペクト推論グラフ(MARG)に基づく特許類似性評価のための新しいフレームワークであるPatentMindを紹介する。
私たちのフレームワークは、現実世界の意思決定のための構造化され、セマンティックな基盤を提供します。
論文 参考訳(メタデータ) (2025-05-25T22:28:27Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。
さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。
LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - AutoPatent: A Multi-Agent Framework for Automatic Patent Generation [16.862811929856313]
我々はDraft2Patentと呼ばれる新しい実用的なタスクとそれに対応するD2Pベンチマークを導入し、初期ドラフトに基づいて17Kトークンを平均化する完全長の特許を生成するためにLarge Language Modelsに挑戦する。
提案するマルチエージェントフレームワークであるAutoPatentは,LPMベースのプランナーエージェント,ライターエージェント,検査エージェントをPGTreeとRRAGで組み合わせて,長文かつ複雑かつ高品質な特許文書を生成する。
論文 参考訳(メタデータ) (2024-12-13T02:27:34Z) - PaECTER: Patent-level Representation Learning using Citation-informed Transformers [0.1957338076370071]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。