論文の概要: DAPFAM: A Domain-Aware Patent Retrieval Dataset Aggregated at the Family Level
- arxiv url: http://arxiv.org/abs/2506.22141v1
- Date: Fri, 27 Jun 2025 11:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.188377
- Title: DAPFAM: A Domain-Aware Patent Retrieval Dataset Aggregated at the Family Level
- Title(参考訳): DAPFAM: 家族レベルで集約されたドメイン対応特許検索データセット
- Authors: Iliass Ayaou, Denis Cavallucci, Hicham Chibane,
- Abstract要約: DAPFAMは、シンプルなファミリーレベルで構築された新しいオープンアクセスドメイン対応特許検索データセットである。
データセットには1,247のドメインバランスの取れたフルテキストクエリーファミリーと45,336のフルテキストターゲットファミリーが含まれている。
データセットは複数の管轄権を持ち、検索評価のための事前処理はほとんど必要とせず、限られたリソースを持つエンティティに対して管理可能なサイズのままである。
- 参考スコア(独自算出の注目度): 2.1301560294088318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the landscape of publicly available patent retrieval datasets, the need for explicit indomain and out-of-domain labeling, multi-jurisdiction coverage, balanced query domain representation and manageable sizes that support sub document level experiments on moderate computational resources is often overlooked. To address these gaps, we propose DAPFAM, a new open access domain-aware patent retrieval dataset constructed at the simple-family level. The dataset contains 1,247 domain balanced full text query families and 45,336 full text target families. The dataset is enriched by clear relevance judgments (forward/backward citations as positive links, random negatives), as well as explicit in-domain or out-of-domain relationships via a novel proposed labelling scheme based on via International Patent Classification (IPC) codes, resulting in 49,869 evaluation pairs. The dataset is multi jurisdictional, requires little to no preprocessing for retrieval evaluation, and remains of a size manageable for entities with limited ressources allowing for sub document level retrieval experiments without excessive computational costs. We describe our three-step data-curation pipeline, present comprehensive dataset statistics, and provide baseline experiments using lexical and neural retrieval methods. Our baseline experiments highlight significant challenges in crossdomain patent retrieval. The dataset will be publicly available (for now the access link is this repository: https://osf.io/vbyzd/?view_only=1a40242e0d1941a58aa854af3e50cf6b).
- Abstract(参考訳): 公開されている特許検索データセットの状況では、明示的なドメイン内およびドメイン外ラベリング、マルチパラメータカバレッジ、バランスの取れたクエリドメイン表現と、適度な計算資源に対するサブドキュメントレベルの実験をサポートする管理可能なサイズの必要性はしばしば見過ごされる。
これらのギャップに対処するため、我々は、シンプルなファミリーレベルで構築された新しいオープンアクセスドメイン対応特許検索データセットであるDAPFAMを提案する。
データセットには1,247のドメインバランスの取れたフルテキストクエリーファミリーと45,336のフルテキストターゲットファミリーが含まれている。
データセットは、明確な関連性判断(前/後ろの引用を正のリンクとして、ランダムな負として)と、国際特許分類(IPC)コードに基づく新しいラベリングスキームによって、明示的なドメイン内またはドメイン外関係によって強化され、49,869対の評価結果が得られる。
このデータセットは、検索評価のための事前処理をほとんど必要とせず、限られたリソースを持つエンティティに対して管理可能なサイズのままであり、過剰な計算コストを伴わないサブドキュメントレベルの検索実験を可能にしている。
本稿では,3段階のデータ計算パイプラインを記述し,包括的データセット統計を示し,語彙的およびニューラル検索法を用いてベースライン実験を行う。
本研究のベースライン実験は,クロスドメイン特許検索における重要な課題を浮き彫りにしている。
データセットは公開されます(現在のアクセスリンクはこのリポジトリです)。
関連論文リスト
- UniPAR: A Unified Framework for Pedestrian Attribute Recognition [14.613498516126498]
歩行者属性認識のための統合トランスフォーマーベースのフレームワークUniPARを提案する。
統一されたデータスケジューリング戦略と動的分類ヘッドを組み込むことで、UniPARは単一のモデルで多様なデータセットを同時に処理できる。
MSP60K、DukeMTMC、EventPARなど、広く使われているベンチマークデータセットの実験結果は、UniPARが特別なSOTAメソッドに匹敵するパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2026-03-05T12:34:35Z) - DEER: Disentangled Mixture of Experts with Instance-Adaptive Routing for Generalizable Machine-Generated Text Detection [21.449323711668487]
ドメイン固有のMGTパターンとドメイン一般MGTパターンの両方をキャプチャする新しいフレームワークを提案する。
我々は、ドメイン固有の専門家が人間と機械が生成するテキストのドメイン局所的な微粒化を学習する、エキスパートの混在モジュールを紹介した。
また、各入力インスタンスに対して適切な専門家を動的に選択する強化学習に基づくルーティング機構を設計する。
論文 参考訳(メタデータ) (2025-11-03T03:36:48Z) - SNaRe: Domain-aware Data Generation for Low-Resource Event Detection [84.82139313614255]
事象検出は、生物医学、法学、疫学のような高度に専門化された領域での推論を可能にするために重要である。
SNaReは、Scout、Narrator、Refinerの3つのコンポーネントから構成される、ドメイン対応の合成データ生成フレームワークである。
Scoutはラベルのないターゲットドメインデータからトリガーを抽出し、高品質なドメイン固有のトリガーリストをキュレートする。
これらのトリガに条件付けされたナレーターは、高品質なドメイン整列文を生成し、Refinerは追加のイベント参照を識別する。
論文 参考訳(メタデータ) (2025-02-24T18:20:42Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Enhancing Federated Domain Adaptation with Multi-Domain Prototype-Based Federated Fine-Tuning [15.640664498531274]
フェデレーション・ドメイン適応(Federated Domain Adaptation, FDA)は、フェデレーション・ラーニング(FL)シナリオである。
我々はtextbfMulti- domain textbfPrototype-based textbfFederated Fine-textbfTuning (MPFT) と呼ばれる新しいフレームワークを提案する。
MPFTファインチューン(英: MPFT fine-tunes)は、マルチドメインのプロトタイプ、すなわち、カテゴリ固有のローカルデータから、ドメイン固有の情報に富んだ事前訓練された表現を用いた事前訓練されたモデルである。
論文 参考訳(メタデータ) (2024-10-10T09:15:56Z) - Joint Identifiability of Cross-Domain Recommendation via Hierarchical Subspace Disentanglement [19.29182848154183]
CDR(Cross-Domain Recommendation)はドメイン間の効果的な知識伝達を実現する。
CDRは、ユーザ表現を2つのドメインにまたがる共同分布として記述するが、これらの方法は、その共同識別可能性を考慮していない。
本稿では,階層的部分空間のアンタングル化手法を提案し,ドメイン間結合分布の結合識別可能性について検討する。
論文 参考訳(メタデータ) (2024-04-06T03:11:31Z) - Hypernetwork-Driven Model Fusion for Federated Domain Generalization [26.492360039272942]
フェデレートラーニング(FL)は、異種データのドメインシフトにおいて大きな課題に直面します。
非線形アグリゲーションにハイパーネットワークを用いた、ハイパーネットワークベースのフェデレート・フュージョン(hFedF)と呼ばれるロバストなフレームワークを提案する。
本手法では,ドメインの一般化を効果的に管理するために,クライアント固有の埋め込みと勾配アライメント手法を用いる。
論文 参考訳(メタデータ) (2024-02-10T15:42:03Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - FOAL: Fine-grained Contrastive Learning for Cross-domain Aspect
Sentiment Triplet Extraction [28.49399937940077]
Aspect Sentiment Triplet extract (ASTE)は、特定のドメインで十分なアノテーションデータに依存しながら、有望な結果を得た。
本稿では、リソース豊富なソースドメインからリソース不足対象ドメインへ知識を転送するクロスドメイン設定でASTEを探索することを提案する。
知識をドメイン間で効果的に伝達し、感情三重項を正確に抽出するために、細粒度cOntrAstive Learningという手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T07:56:01Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Asymmetric Transfer Hashing with Adaptive Bipartite Graph Learning [95.54688542786863]
既存のハッシュ法では、クエリと検索サンプルは同じドメイン内の同質な特徴空間にあると仮定する。
教師なし/半教師付き/教師付き実現のための非対称トランスファーハッシュ(ATH)フレームワークを提案する。
非対称ハッシュ関数と二部グラフを共同最適化することにより、知識伝達が達成できるだけでなく、特徴アライメントによる情報損失も回避できる。
論文 参考訳(メタデータ) (2022-06-25T08:24:34Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Challenges for Open-domain Targeted Sentiment Analysis [21.61943346030794]
そこで本研究では、6,013個の人間ラベル付きデータからなる新しいデータセットを提案する。
また、文書中の完全な感情情報を抽出するためのネストされたターゲットアノテーションスキーマも提供します。
論文 参考訳(メタデータ) (2022-04-14T11:44:02Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Cross-Domain Generalization Through Memorization: A Study of Nearest
Neighbors in Neural Duplicate Question Detection [72.01292864036087]
重複質問検出(DQD)は,コミュニティの効率向上と自動質問応答システムの実現に重要である。
我々は、DQDのクロスドメイン一般化のために、ニューラル表現を活用し、近接する隣人を研究する。
StackExchange、Spring、Quoraの各データセットの異なるクロスドメインシナリオにおいて、このメソッドの堅牢なパフォーマンスを観察します。
論文 参考訳(メタデータ) (2020-11-22T19:19:33Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。