論文の概要: Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
- arxiv url: http://arxiv.org/abs/2605.24297v2
- Date: Tue, 26 May 2026 04:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.065395
- Title: Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
- Title(参考訳): ベンチマーク特許埋め込み: 検索,分類,クラスタリングにおける22モデルのマルチタスク評価
- Authors: Amirhossein Yousefiramandi, Ciaran Cooney,
- Abstract要約: 我々は,情報検索,分類,クラスタリングという3つのタスクに対して,事前学習した22の埋め込みモデルを評価する。
2つの結果は、一般的な知恵に疑問を投げかけている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two questions regarding practitioners' use of patent embeddings arise: (i) Does one fine-tuning recipe suffice for all downstream applications? (ii) Is fine-tuning on one patent landscape sufficient for downstream application on other landscapes? By evaluating 22 pre-trained embedding models (ranging from 22M to 12B parameters) on three tasks -- information retrieval, classification, and clustering -- on 113,148 WIPO patents for assistive technology (46,069 citation queries) and on an external DAPFAM dataset, we find that two results cast doubt on the prevailing wisdom. (i) The optimal fine-tuning recipe depends on the downstream task: cross-sectional alignment (recipe R3) provides the largest improvements to retrieval performance (+7.1% nDCG@10), whereas a combined signal recipe (recipe R4) is better suited to classification (+7.1 F1) and clustering (+10.9 V-measure); a matched data control confirms that differences in training dataset size are not a contributing factor. (ii) Single-landscape fine-tuning hampers cross-landscape information retrieval: fine-tuning on one landscape significantly degrades cross-domain retrieval for 5 of 8 model-recipe combinations on the DAPFAM corpus, with the stronger zero-shot models suffering most. While within-family scaling is consistent (Qwen3 0.6B->4B->8B; Llama-Nemotron 1B->8B), cross-family scaling is erratic; the 12B KaLM-Gemma3 is ranked 8th on TAC retrieval performance, following prefix modification. Title+Abstract+Claims is the ubiquitous best text view, and all models suffer from a 55-65% gap between IN and OUT-of-domain performance which cannot be mitigated by hybrid BM25-dense fusion. Code and evaluation framework are publicly available.
- Abstract(参考訳): 実践者の特許埋め込み使用に関する2つの疑問が浮かび上がっている。
(i)ダウンストリームアプリケーションすべてに微調整のレシピは十分か?
2) 下流の他の分野への応用に十分な特許ランドスケープを微調整することは可能か。
113,148件のWIPO特許(46,069件の引用クエリ)と外部DAPFAMデータセット(46,069件の引用クエリ)に基づいて、22件の事前学習済み埋め込みモデル(22Mから12Bパラメータ)を3つのタスク(情報検索、分類、クラスタリング)で評価することにより、この2つの結果が一般的な知恵に疑問を投げかけていることがわかった。
(i) 最適微調整レシピは下流タスクに依存する: クロスセクションアライメント(recipe R3)は、検索性能の最大の改善(+7.1% nDCG@10)を提供する一方、複合信号レシピ(recipe R4)は、分類(+7.1 F1)とクラスタリング(+10.9 V-measure)に適しており、一致したデータ制御は、トレーニングデータセットサイズの違いが寄与要因ではないことを確認する。
(II) 単一ランドスケープの細調整ハッパーのクロスランドスケープ情報検索: 単一ランドスケープの微調整は, DAPFAMコーパス上の8つのモデルレシピの組み合わせのうち5つに対して, クロスドメイン検索を著しく低下させ, より強力なゼロショットモデルが最も苦しむ。
内部スケーリングは一貫性がある(Qwen3 0.6B->4B->8B; Llama-Nemotron 1B->8B; Llama-Nemotron 1B->8B; Llama-Nemotron 1B->8B; Llama-Nemotron 1B->8B; Llama-Nemotron 1B->8B; Llama-Nemotron 1B->8B; 12B KaLM-Gemma3はTAC検索性能において第8位である。
Title+Abstract+Claimsはユビキタスなテキストビューであり、すべてのモデルは、ハイブリッドBM25dense融合によって緩和できないINとout-of-domainパフォーマンスの55-65%のギャップに悩まされている。
コードと評価フレームワークが公開されている。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - PRUE: A Practical Recipe for Field Boundary Segmentation at Scale [50.194423500109025]
本研究では,大域境界線決定のためのセグメント化と地理空間基盤モデル(GFM)を初めて体系的に評価する。
U-Netセマンティックセマンティックセグメンテーションモデルは、パフォーマンスとデプロイメントのメトリクスのスイートにおいて、インスタンスベースとGFMの代替よりも優れています。
我々のアプローチは、モデル設計、トレーニング、推論にまたがる、信頼性があり、スケーラブルで再現可能なフィールド境界記述のための実践的なフレームワークを提供します。
論文 参考訳(メタデータ) (2026-03-28T02:47:46Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である
当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。
単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文 参考訳(メタデータ) (2026-01-07T13:58:29Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding [1.0742675209112622]
特許テキストの埋め込みは、先行技術検索、技術造園、および特許分析を可能にするが、既存のベンチマークでは特許固有の課題を適切に捉えていない。
PatenTEBは、検索、分類、パラフレーズ、クラスタリングにまたがる15のタスクからなる総合的なベンチマークである。
我々は,最大4096個のトークンを持つ67万から344万のパラメータにまたがるマルチタスクトレーニングにより,ピアテムドモデルファミリを開発した。
論文 参考訳(メタデータ) (2025-10-25T12:01:46Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。