Fugu-MT 論文翻訳(概要): Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering

論文の概要: Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering

arxiv url: http://arxiv.org/abs/2605.24297v1
Date: Fri, 22 May 2026 23:51:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.853558
Title: Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
Title（参考訳）: ベンチマーク特許埋め込み: 検索,分類,クラスタリングにおける22モデルのマルチタスク評価
Authors: Amirhossein Yousefiramandi, Ciaran Cooney,
Abstract要約: この研究は、113,148個の補助技術特許、46,069個の引用グラフ検索クエリ、および外部検証のための公開DAPFAMデータセットを使用する。本フレームワークでは,引用に基づく検索,ハイブリッドスパース・デンス融合,5つのデータセットに対するマルチラベル分類,教師なしクラスタリング,6つのテキスト分割ビュー,ドメイン適応型4つのモデルの微調整,司法分析,DWPI(Derwent World Patents Index, Clarivate)の専門家によるコンテンツについて検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Which fine-tuning signals improve patent embedding models, and do gains transfer across patent landscapes? We benchmark 22 embedding models, from 22M-parameter encoders to 12B instruction-tuned LLMs, on retrieval, classification, and clustering. The study uses 113,148 WIPO assistive-technology patents, 46,069 citation-graph retrieval queries, and the public DAPFAM dataset for external validation. Our framework covers citation-based retrieval, hybrid sparse-dense fusion, multi-label classification over five datasets, unsupervised clustering, six text-section views, domain-adaptive fine-tuning of four models, jurisdiction analysis, and proprietary DWPI (Derwent World Patents Index, Clarivate) expert-written content. Results show that fine-tuning is task-dependent: single-landscape tuning can improve in-domain scores but often hurts retrieval on an external landscape, challenging the assumption that more domain data always helps. Within model families, scale usually predicts performance (Qwen3 0.6B to 4B to 8B; Llama-Nemotron 1B to 8B), but cross-family scaling is noisy: the 12B KaLM-Gemma3 ranks 8th on TAC retrieval, while Qwen3-0.6B leads ARI clustering. Title+Abstract+Claims is the most reliable text representation. Multi-view abstract-claim alignment improves retrieval by up to 7.1 percent nDCG@10, while combined fine-tuning gives the strongest classification gains (+7.1 F1). All models drop by 55-65 percent on out-of-domain queries, and hybrid sparse-dense fusion does not close this gap. BM25-dense interpolation gives modest nDCG@10 gains (+0.002 to +0.015), with larger benefits for weaker zero-shot dense models. Code and evaluation framework are publicly available.
Abstract（参考訳）: どの微調整信号が特許埋め込みモデルを改善するのか。 22Mパラメトリックエンコーダから12B命令調整LDM,検索,分類,クラスタリングの22種類の埋め込みモデルをベンチマークした。この研究は、113,148個のWIPO補助技術特許、46,069個の引用グラフ検索クエリ、および外部検証のための公開DAPFAMデータセットを使用する。本フレームワークでは,引用に基づく検索,ハイブリッドスパース・デンス融合,5つのデータセットに対するマルチラベル分類,教師なしクラスタリング,6つのテキスト分割ビュー,ドメイン適応型4つのモデルの微調整,司法分析,DWPI(Derwent World Patents Index, Clarivate)の専門家によるコンテンツについて検討する。単一ランドスケープチューニングは、ドメイン内のスコアを改善するが、しばしば外部のランドスケープでの検索を損なうため、より多くのドメインデータが常に役に立つという仮定に挑戦する。モデルファミリーでは、スケールは通常パフォーマンス(Qwen3 0.6Bから4Bから8B、Llama-Nemotron 1Bから8B)を予測するが、クロスファミリースケーリングはノイズが多く、12B KaLM-Gemma3はTAC検索で8位、Qwen3-0.6BはARIクラスタリングをリードする。 Title+Abstract+Claimsが最も信頼できるテキスト表現である。マルチビューの抽象的なアライメントは、検索を最大7.1%のnDCG@10に改善する一方、ファインチューニングを組み合わせることで、最強の分類ゲイン(+7.1 F1)が得られる。すべてのモデルはドメイン外のクエリで55～65%減少し、ハイブリッドなスパースセンス融合はこのギャップを埋めない。 BM25-dense補間により、より弱いゼロショット密度モデルに対してより大きな利点を持つ、控えめなnDCG@10ゲイン(+0.002から+0.015)が得られる。コードと評価フレームワークが公開されている。

関連論文リスト

Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-20T21:25:41Z)
PRUE: A Practical Recipe for Field Boundary Segmentation at Scale [50.194423500109025]
本研究では,大域境界線決定のためのセグメント化と地理空間基盤モデル(GFM)を初めて体系的に評価する。 U-Netセマンティックセマンティックセグメンテーションモデルは、パフォーマンスとデプロイメントのメトリクスのスイートにおいて、インスタンスベースとGFMの代替よりも優れています。我々のアプローチは、モデル設計、トレーニング、推論にまたがる、信頼性があり、スケーラブルで再現可能なフィールド境界記述のための実践的なフレームワークを提供します。
論文参考訳（メタデータ） (2026-03-28T02:47:46Z)
Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文参考訳（メタデータ） (2026-01-17T21:33:27Z)
Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文参考訳（メタデータ） (2026-01-07T13:58:29Z)
EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。 TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。 200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文参考訳（メタデータ） (2025-12-29T14:48:40Z)
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding [1.0742675209112622]
特許テキストの埋め込みは、先行技術検索、技術造園、および特許分析を可能にするが、既存のベンチマークでは特許固有の課題を適切に捉えていない。 PatenTEBは、検索、分類、パラフレーズ、クラスタリングにまたがる15のタスクからなる総合的なベンチマークである。我々は,最大4096個のトークンを持つ67万から344万のパラメータにまたがるマルチタスクトレーニングにより,ピアテムドモデルファミリを開発した。
論文参考訳（メタデータ） (2025-10-25T12:01:46Z)
David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。 NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。 4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文参考訳（メタデータ） (2025-10-15T21:37:02Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文参考訳（メタデータ） (2023-05-15T06:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。