論文の概要: DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval
- arxiv url: http://arxiv.org/abs/2506.22141v2
- Date: Wed, 03 Sep 2025 18:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.772738
- Title: DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval
- Title(参考訳): DAPFAM: クロスドメイン特許検索をベンチマークするドメイン対応ファミリーレベルデータセット
- Authors: Iliass Ayaou, Denis Cavallucci, Hicham Chibane,
- Abstract要約: IPC3オーバーラップ方式によって定義された明示的なINドメインとoutドメインのパーティションを持つ家族レベルのベンチマークであるDAPFAMを紹介する。
このデータセットには1,247のクエリーファミリと45,336のターゲットファミリが含まれており、国際的冗長性を低減している。
語彙 (BM25) と高密度 (トランスフォーマー) バックエンド, 文書および通過レベルの検索, 複数クエリおよび文書表現, 集約戦略, ハイブリッド融合にまたがる249の制御実験を行った。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patent prior-art retrieval becomes especially challenging when relevant disclosures cross technological boundaries. Existing benchmarks lack explicit domain partitions, making it difficult to assess how retrieval systems cope with such shifts. We introduce DAPFAM, a family-level benchmark with explicit IN-domain and OUT-domain partitions defined by a new IPC3 overlap scheme. The dataset contains 1,247 query families and 45,336 target families aggregated at the family level to reduce international redundancy, with citation based relevance judgments. We conduct 249 controlled experiments spanning lexical (BM25) and dense (transformer) backends, document and passage level retrieval, multiple query and document representations, aggregation strategies, and hybrid fusion via Reciprocal Rank Fusion (RRF). Results reveal a pronounced domain gap: OUT-domain performance remains roughly five times lower than IN-domain across all configurations. Passage-level retrieval consistently outperforms document-level, and dense methods provide modest gains over BM25, but none close the OUT-domain gap. Document-level RRF yields strong effectiveness efficiency trade-offs with minimal overhead. By exposing the persistent challenge of cross-domain retrieval, DAPFAM provides a reproducible, compute-aware testbed for developing more robust patent IR systems. The dataset is publicly available on huggingface at https://huggingface.co/datasets/datalyes/DAPFAM_patent.
- Abstract(参考訳): 特許の先行技術検索は、関連する開示が技術境界を越えると特に困難になる。
既存のベンチマークには明確なドメイン分割がないため、検索システムがこのようなシフトにどう対処するかを評価するのは難しい。
IPC3オーバーラップ方式によって定義された明示的なINドメインとoutドメインのパーティションを持つ家族レベルのベンチマークであるDAPFAMを紹介する。
このデータセットは、家族レベルで集約された1,247のクエリーファミリーと45,336のターゲットファミリーを含んでおり、国際的冗長度を減らし、引用に基づく関連判断を下している。
語彙 (BM25) と高密度 (トランスフォーマー) バックエンド, 文書および通過レベルの検索, 複数クエリおよび文書表現, 集約戦略, およびReciprocal Rank Fusion (RRF) によるハイブリッド核融合を対象とする249の制御実験を行った。
外部ドメインのパフォーマンスは、すべての構成でINドメインよりも約5倍低いままです。
パスレベル検索は文書レベルを一貫して上回り、密度の高いメソッドはBM25よりも適度に向上するが、outドメインのギャップを埋めることはない。
ドキュメントレベルのRFは、オーバーヘッドを最小限に抑えながら、高い効率効率のトレードオフをもたらす。
DAPFAMは、ドメイン間検索の永続的な課題を明らかにすることで、より堅牢な特許IRシステムを開発するための再現性のある、計算可能なテストベッドを提供する。
データセットは、https://huggingface.co/datasets/datalyes/DAPFAM_patentで公開されています。
関連論文リスト
- SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [84.82139313614255]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - FOAL: Fine-grained Contrastive Learning for Cross-domain Aspect
Sentiment Triplet Extraction [28.49399937940077]
Aspect Sentiment Triplet extract (ASTE)は、特定のドメインで十分なアノテーションデータに依存しながら、有望な結果を得た。
本稿では、リソース豊富なソースドメインからリソース不足対象ドメインへ知識を転送するクロスドメイン設定でASTEを探索することを提案する。
知識をドメイン間で効果的に伝達し、感情三重項を正確に抽出するために、細粒度cOntrAstive Learningという手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T07:56:01Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Challenges for Open-domain Targeted Sentiment Analysis [21.61943346030794]
そこで本研究では、6,013個の人間ラベル付きデータからなる新しいデータセットを提案する。
また、文書中の完全な感情情報を抽出するためのネストされたターゲットアノテーションスキーマも提供します。
論文 参考訳(メタデータ) (2022-04-14T11:44:02Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。