論文の概要: DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval
- arxiv url: http://arxiv.org/abs/2506.22141v2
- Date: Wed, 03 Sep 2025 18:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.772738
- Title: DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval
- Title(参考訳): DAPFAM: クロスドメイン特許検索をベンチマークするドメイン対応ファミリーレベルデータセット
- Authors: Iliass Ayaou, Denis Cavallucci, Hicham Chibane,
- Abstract要約: IPC3オーバーラップ方式によって定義された明示的なINドメインとoutドメインのパーティションを持つ家族レベルのベンチマークであるDAPFAMを紹介する。
このデータセットには1,247のクエリーファミリと45,336のターゲットファミリが含まれており、国際的冗長性を低減している。
語彙 (BM25) と高密度 (トランスフォーマー) バックエンド, 文書および通過レベルの検索, 複数クエリおよび文書表現, 集約戦略, ハイブリッド融合にまたがる249の制御実験を行った。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patent prior-art retrieval becomes especially challenging when relevant disclosures cross technological boundaries. Existing benchmarks lack explicit domain partitions, making it difficult to assess how retrieval systems cope with such shifts. We introduce DAPFAM, a family-level benchmark with explicit IN-domain and OUT-domain partitions defined by a new IPC3 overlap scheme. The dataset contains 1,247 query families and 45,336 target families aggregated at the family level to reduce international redundancy, with citation based relevance judgments. We conduct 249 controlled experiments spanning lexical (BM25) and dense (transformer) backends, document and passage level retrieval, multiple query and document representations, aggregation strategies, and hybrid fusion via Reciprocal Rank Fusion (RRF). Results reveal a pronounced domain gap: OUT-domain performance remains roughly five times lower than IN-domain across all configurations. Passage-level retrieval consistently outperforms document-level, and dense methods provide modest gains over BM25, but none close the OUT-domain gap. Document-level RRF yields strong effectiveness efficiency trade-offs with minimal overhead. By exposing the persistent challenge of cross-domain retrieval, DAPFAM provides a reproducible, compute-aware testbed for developing more robust patent IR systems. The dataset is publicly available on huggingface at https://huggingface.co/datasets/datalyes/DAPFAM_patent.
- Abstract(参考訳): 特許の先行技術検索は、関連する開示が技術境界を越えると特に困難になる。
既存のベンチマークには明確なドメイン分割がないため、検索システムがこのようなシフトにどう対処するかを評価するのは難しい。
IPC3オーバーラップ方式によって定義された明示的なINドメインとoutドメインのパーティションを持つ家族レベルのベンチマークであるDAPFAMを紹介する。
このデータセットは、家族レベルで集約された1,247のクエリーファミリーと45,336のターゲットファミリーを含んでおり、国際的冗長度を減らし、引用に基づく関連判断を下している。
語彙 (BM25) と高密度 (トランスフォーマー) バックエンド, 文書および通過レベルの検索, 複数クエリおよび文書表現, 集約戦略, およびReciprocal Rank Fusion (RRF) によるハイブリッド核融合を対象とする249の制御実験を行った。
外部ドメインのパフォーマンスは、すべての構成でINドメインよりも約5倍低いままです。
パスレベル検索は文書レベルを一貫して上回り、密度の高いメソッドはBM25よりも適度に向上するが、outドメインのギャップを埋めることはない。
ドキュメントレベルのRFは、オーバーヘッドを最小限に抑えながら、高い効率効率のトレードオフをもたらす。
DAPFAMは、ドメイン間検索の永続的な課題を明らかにすることで、より堅牢な特許IRシステムを開発するための再現性のある、計算可能なテストベッドを提供する。
データセットは、https://huggingface.co/datasets/datalyes/DAPFAM_patentで公開されています。
関連論文リスト
- UniPAR: A Unified Framework for Pedestrian Attribute Recognition [14.613498516126498]
歩行者属性認識のための統合トランスフォーマーベースのフレームワークUniPARを提案する。
統一されたデータスケジューリング戦略と動的分類ヘッドを組み込むことで、UniPARは単一のモデルで多様なデータセットを同時に処理できる。
MSP60K、DukeMTMC、EventPARなど、広く使われているベンチマークデータセットの実験結果は、UniPARが特別なSOTAメソッドに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2026-03-05T12:34:35Z) - DEER: Disentangled Mixture of Experts with Instance-Adaptive Routing for Generalizable Machine-Generated Text Detection [21.449323711668487]
ドメイン固有のMGTパターンとドメイン一般MGTパターンの両方をキャプチャする新しいフレームワークを提案する。
我々は、ドメイン固有の専門家が人間と機械が生成するテキストのドメイン局所的な微粒化を学習する、エキスパートの混在モジュールを紹介した。
また、各入力インスタンスに対して適切な専門家を動的に選択する強化学習に基づくルーティング機構を設計する。
論文 参考訳(メタデータ) (2025-11-03T03:36:48Z) - SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [84.82139313614255]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Enhancing Federated Domain Adaptation with Multi-Domain Prototype-Based Federated Fine-Tuning [15.640664498531274]
フェデレーション・ドメイン適応(Federated Domain Adaptation, FDA)は、フェデレーション・ラーニング(FL)シナリオである。
我々はtextbfMulti- domain textbfPrototype-based textbfFederated Fine-textbfTuning (MPFT) と呼ばれる新しいフレームワークを提案する。
MPFTファインチューン(英: MPFT fine-tunes)は、マルチドメインのプロトタイプ、すなわち、カテゴリ固有のローカルデータから、ドメイン固有の情報に富んだ事前訓練された表現を用いた事前訓練されたモデルである。
論文 参考訳(メタデータ) (2024-10-10T09:15:56Z) - Joint Identifiability of Cross-Domain Recommendation via Hierarchical Subspace Disentanglement [19.29182848154183]
CDR(Cross-Domain Recommendation)はドメイン間の効果的な知識伝達を実現する。
CDRは、ユーザ表現を2つのドメインにまたがる共同分布として記述するが、これらの方法は、その共同識別可能性を考慮していない。
本稿では,階層的部分空間のアンタングル化手法を提案し,ドメイン間結合分布の結合識別可能性について検討する。
論文 参考訳(メタデータ) (2024-04-06T03:11:31Z) - Hypernetwork-Driven Model Fusion for Federated Domain Generalization [26.492360039272942]
フェデレートラーニング(FL)は、異種データのドメインシフトにおいて大きな課題に直面します。
非線形アグリゲーションにハイパーネットワークを用いた、ハイパーネットワークベースのフェデレート・フュージョン(hFedF)と呼ばれるロバストなフレームワークを提案する。
本手法では,ドメインの一般化を効果的に管理するために,クライアント固有の埋め込みと勾配アライメント手法を用いる。
論文 参考訳(メタデータ) (2024-02-10T15:42:03Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - FOAL: Fine-grained Contrastive Learning for Cross-domain Aspect
Sentiment Triplet Extraction [28.49399937940077]
Aspect Sentiment Triplet extract (ASTE)は、特定のドメインで十分なアノテーションデータに依存しながら、有望な結果を得た。
本稿では、リソース豊富なソースドメインからリソース不足対象ドメインへ知識を転送するクロスドメイン設定でASTEを探索することを提案する。
知識をドメイン間で効果的に伝達し、感情三重項を正確に抽出するために、細粒度cOntrAstive Learningという手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T07:56:01Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Asymmetric Transfer Hashing with Adaptive Bipartite Graph Learning [95.54688542786863]
既存のハッシュ法では、クエリと検索サンプルは同じドメイン内の同質な特徴空間にあると仮定する。
教師なし/半教師付き/教師付き実現のための非対称トランスファーハッシュ(ATH)フレームワークを提案する。
非対称ハッシュ関数と二部グラフを共同最適化することにより、知識伝達が達成できるだけでなく、特徴アライメントによる情報損失も回避できる。
論文 参考訳(メタデータ) (2022-06-25T08:24:34Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Challenges for Open-domain Targeted Sentiment Analysis [21.61943346030794]
そこで本研究では、6,013個の人間ラベル付きデータからなる新しいデータセットを提案する。
また、文書中の完全な感情情報を抽出するためのネストされたターゲットアノテーションスキーマも提供します。
論文 参考訳(メタデータ) (2022-04-14T11:44:02Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Cross-Domain Generalization Through Memorization: A Study of Nearest
Neighbors in Neural Duplicate Question Detection [72.01292864036087]
重複質問検出(DQD)は,コミュニティの効率向上と自動質問応答システムの実現に重要である。
我々は、DQDのクロスドメイン一般化のために、ニューラル表現を活用し、近接する隣人を研究する。
StackExchange、Spring、Quoraの各データセットの異なるクロスドメインシナリオにおいて、このメソッドの堅牢なパフォーマンスを観察します。
論文 参考訳(メタデータ) (2020-11-22T19:19:33Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。