論文の概要: DAPFAM: A Domain-Aware Patent Retrieval Dataset Aggregated at the Family Level
- arxiv url: http://arxiv.org/abs/2506.22141v1
- Date: Fri, 27 Jun 2025 11:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.188377
- Title: DAPFAM: A Domain-Aware Patent Retrieval Dataset Aggregated at the Family Level
- Title(参考訳): DAPFAM: 家族レベルで集約されたドメイン対応特許検索データセット
- Authors: Iliass Ayaou, Denis Cavallucci, Hicham Chibane,
- Abstract要約: DAPFAMは、シンプルなファミリーレベルで構築された新しいオープンアクセスドメイン対応特許検索データセットである。
データセットには1,247のドメインバランスの取れたフルテキストクエリーファミリーと45,336のフルテキストターゲットファミリーが含まれている。
データセットは複数の管轄権を持ち、検索評価のための事前処理はほとんど必要とせず、限られたリソースを持つエンティティに対して管理可能なサイズのままである。
- 参考スコア(独自算出の注目度): 2.1301560294088318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the landscape of publicly available patent retrieval datasets, the need for explicit indomain and out-of-domain labeling, multi-jurisdiction coverage, balanced query domain representation and manageable sizes that support sub document level experiments on moderate computational resources is often overlooked. To address these gaps, we propose DAPFAM, a new open access domain-aware patent retrieval dataset constructed at the simple-family level. The dataset contains 1,247 domain balanced full text query families and 45,336 full text target families. The dataset is enriched by clear relevance judgments (forward/backward citations as positive links, random negatives), as well as explicit in-domain or out-of-domain relationships via a novel proposed labelling scheme based on via International Patent Classification (IPC) codes, resulting in 49,869 evaluation pairs. The dataset is multi jurisdictional, requires little to no preprocessing for retrieval evaluation, and remains of a size manageable for entities with limited ressources allowing for sub document level retrieval experiments without excessive computational costs. We describe our three-step data-curation pipeline, present comprehensive dataset statistics, and provide baseline experiments using lexical and neural retrieval methods. Our baseline experiments highlight significant challenges in crossdomain patent retrieval. The dataset will be publicly available (for now the access link is this repository: https://osf.io/vbyzd/?view_only=1a40242e0d1941a58aa854af3e50cf6b).
- Abstract(参考訳): 公開されている特許検索データセットの状況では、明示的なドメイン内およびドメイン外ラベリング、マルチパラメータカバレッジ、バランスの取れたクエリドメイン表現と、適度な計算資源に対するサブドキュメントレベルの実験をサポートする管理可能なサイズの必要性はしばしば見過ごされる。
これらのギャップに対処するため、我々は、シンプルなファミリーレベルで構築された新しいオープンアクセスドメイン対応特許検索データセットであるDAPFAMを提案する。
データセットには1,247のドメインバランスの取れたフルテキストクエリーファミリーと45,336のフルテキストターゲットファミリーが含まれている。
データセットは、明確な関連性判断(前/後ろの引用を正のリンクとして、ランダムな負として)と、国際特許分類(IPC)コードに基づく新しいラベリングスキームによって、明示的なドメイン内またはドメイン外関係によって強化され、49,869対の評価結果が得られる。
このデータセットは、検索評価のための事前処理をほとんど必要とせず、限られたリソースを持つエンティティに対して管理可能なサイズのままであり、過剰な計算コストを伴わないサブドキュメントレベルの検索実験を可能にしている。
本稿では,3段階のデータ計算パイプラインを記述し,包括的データセット統計を示し,語彙的およびニューラル検索法を用いてベースライン実験を行う。
本研究のベースライン実験は,クロスドメイン特許検索における重要な課題を浮き彫りにしている。
データセットは公開されます(現在のアクセスリンクはこのリポジトリです)。
関連論文リスト
- SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [84.82139313614255]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - FOAL: Fine-grained Contrastive Learning for Cross-domain Aspect
Sentiment Triplet Extraction [28.49399937940077]
Aspect Sentiment Triplet extract (ASTE)は、特定のドメインで十分なアノテーションデータに依存しながら、有望な結果を得た。
本稿では、リソース豊富なソースドメインからリソース不足対象ドメインへ知識を転送するクロスドメイン設定でASTEを探索することを提案する。
知識をドメイン間で効果的に伝達し、感情三重項を正確に抽出するために、細粒度cOntrAstive Learningという手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T07:56:01Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Challenges for Open-domain Targeted Sentiment Analysis [21.61943346030794]
そこで本研究では、6,013個の人間ラベル付きデータからなる新しいデータセットを提案する。
また、文書中の完全な感情情報を抽出するためのネストされたターゲットアノテーションスキーマも提供します。
論文 参考訳(メタデータ) (2022-04-14T11:44:02Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。