論文の概要: Datasets for machine learning and for assessing the intelligence level of automatic patent search systems
- arxiv url: http://arxiv.org/abs/2512.18384v1
- Date: Sat, 20 Dec 2025 14:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.311752
- Title: Datasets for machine learning and for assessing the intelligence level of automatic patent search systems
- Title(参考訳): 自動特許検索システムにおける機械学習とインテリジェンスレベル評価のためのデータセット
- Authors: Boris Genin, Alexander Gorbunov, Dmitry Zolkin, Igor Nekrasov,
- Abstract要約: 人工知能を用いた特許研究における先行技術検索の自動化の成功の鍵は、機械学習のための大規模なデータセットを開発することである。
本研究は,検索品質基準を計算するためのデータセットやツールを含む,この分野における研究のためのインフラ構築の問題に対する包括的ソリューションの提供を目的としている。
- 参考スコア(独自算出の注目度): 39.146761527401424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to success in automating prior art search in patent research using artificial intelligence lies in developing large datasets for machine learning and ensuring their availability. This work is dedicated to providing a comprehensive solution to the problem of creating infrastructure for research in this field, including datasets and tools for calculating search quality criteria. The paper discusses the concept of semantic clusters of patent documents that determine the state of the art in a given subject, as proposed by the authors. A definition of such semantic clusters is also provided. Prior art search is presented as the task of identifying elements within a semantic cluster of patent documents in the subject area specified by the document under consideration. A generator of user-configurable datasets for machine learning, based on collections of U.S. and Russian patent documents, is described. The dataset generator creates a database of links to documents in semantic clusters. Then, based on user-defined parameters, it forms a dataset of semantic clusters in JSON format for machine learning. To evaluate machine learning outcomes, it is proposed to calculate search quality scores that account for semantic clusters of the documents being searched. To automate the evaluation process, the paper describes a utility developed by the authors for assessing the quality of prior art document search.
- Abstract(参考訳): 人工知能を用いた特許研究における先行技術検索の自動化の成功の鍵は、機械学習のための大規模なデータセットを開発し、その可用性を確保することである。
本研究は,検索品質の基準を計算するためのデータセットやツールを含む,この分野における研究のためのインフラ構築の問題に対する包括的ソリューションの提供を目的としている。
本稿では,特許文書のセマンティッククラスタの概念について論じる。
このようなセマンティッククラスタの定義も提供される。
先行技術検索は、当該文書が指定する主題領域における特許文書の意味クラスタ内の要素を特定するタスクとして提示される。
米国とロシアの特許文書の収集に基づいて、機械学習のためのユーザ設定可能なデータセットの生成について説明する。
データセットジェネレータは、セマンティッククラスタ内のドキュメントへのリンクデータベースを生成する。
次に、ユーザ定義パラメータに基づいて、マシンラーニングのためのJSONフォーマットでセマンティッククラスタのデータセットを形成する。
機械学習の結果を評価するために,検索対象文書のセマンティッククラスタを考慮した検索品質スコアを計算することを提案する。
評価プロセスを自動化するために,著者らが先行技術文書検索の質を評価するために開発したユーティリティについて述べる。
関連論文リスト
- ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering [52.19512723549318]
我々は,実践者の実世界のモデル利用を反映したスケーラブルなヒューマン評価プロトコルを設計する。
このプロトコルを用いて、さまざまなトピックモデルから出力された大量のクラウドワーカーアノテーションを収集する。
次に、これらのアノテーションを用いて自動プロキシの検証を行い、最適なLCMプロキシが人間のアノテーションと統計的に区別できないことを発見した。
論文 参考訳(メタデータ) (2025-07-01T15:00:55Z) - Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language [4.5224851085910585]
多くの特定の用語を使用するドメイン固有言語は、しばしば低リソース言語に分類される。
本研究では,低リソースなドメイン固有ドイツ語のセマンティック検索を評価するために,テストデータセットの自動収集という課題に対処する。
論文 参考訳(メタデータ) (2024-12-13T09:47:26Z) - Benchmarking pre-trained text embedding models in aligning built asset information [0.0]
本研究では、組立資産情報とドメイン固有の技術的概念の整合性を評価するため、最先端のテキスト埋め込みモデルの比較ベンチマークを提案する。
提案した6つのデータセットを対象としたベンチマークの結果は、クラスタリング、検索、再ランク付けの3つのタスクをカバーし、将来のドメイン適応技術の研究の必要性を強調している。
論文 参考訳(メタデータ) (2024-11-18T20:54:17Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。