論文の概要: Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems
- arxiv url: http://arxiv.org/abs/2505.18366v1
- Date: Fri, 23 May 2025 20:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.36809
- Title: Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems
- Title(参考訳): エンタープライズシステムにおけるドメイン特化検索のためのハード負のマイニング
- Authors: Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda,
- Abstract要約: ドメイン固有の企業データに特化して設計された,スケーラブルなハード負のマイニングフレームワークを提案する。
提案手法は意味論的に難しいが文脈的に無関係な文書を動的に選択し,デプロイされた再ランクモデルを強化する。
- 参考スコア(独自算出の注目度): 2.4830284216463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise search systems often struggle to retrieve accurate, domain-specific information due to semantic mismatches and overlapping terminologies. These issues can degrade the performance of downstream applications such as knowledge management, customer support, and retrieval-augmented generation agents. To address this challenge, we propose a scalable hard-negative mining framework tailored specifically for domain-specific enterprise data. Our approach dynamically selects semantically challenging but contextually irrelevant documents to enhance deployed re-ranking models. Our method integrates diverse embedding models, performs dimensionality reduction, and uniquely selects hard negatives, ensuring computational efficiency and semantic precision. Evaluation on our proprietary enterprise corpus (cloud services domain) demonstrates substantial improvements of 15\% in MRR@3 and 19\% in MRR@10 compared to state-of-the-art baselines and other negative sampling techniques. Further validation on public domain-specific datasets (FiQA, Climate Fever, TechQA) confirms our method's generalizability and readiness for real-world applications.
- Abstract(参考訳): エンタープライズ検索システムは、意味的ミスマッチと重複する用語のために、正確なドメイン固有の情報を取得するのに苦労することが多い。
これらの問題は、知識管理、顧客サポート、検索強化された生成エージェントなどの下流アプリケーションの性能を低下させる可能性がある。
この課題に対処するために、ドメイン固有のエンタープライズデータに特化したスケーラブルなハードネガティブなマイニングフレームワークを提案する。
提案手法は意味論的に難しいが文脈的に無関係な文書を動的に選択し,デプロイされた再ランクモデルを強化する。
本手法は, 様々な埋め込みモデルを統合し, 次元削減を行い, 計算効率と意味的精度を保証し, ハードネガを一意に選択する。
当社のプロプライエタリな企業コーパス(クラウドサービスドメイン)の評価では、最先端のベースラインやその他のネガティブサンプリング技術と比較して、MRR@3で15倍、MRR@10で19倍の大幅な改善が示されています。
パブリックドメイン固有のデータセット(FiQA、Climate Fever、TechQA)に関するさらなる検証は、実世界のアプリケーションに対する我々の手法の一般化性と準備性を確認する。
関連論文リスト
- MetaGen Blended RAG: Higher Accuracy for Domain-Specific Q&A Without Fine-Tuning [0.0]
本稿では,ハイブリッドクエリインデックスとメタデータエンリッチメントによるドメイン固有コーパスの検索機能の向上に焦点を当てたエンタープライズ検索手法を提案する。
この'MetaGen Blended RAG'メソッドは、キーコンセプト、トピック、および頭字語を使用してメタデータ生成パイプラインを構築し、その後、検索クエリが強化されたメタデータ強化ハイブリッドインデックスを生成する。
バイオメディカル領域のPubMedQAベンチマークにおいて、提案手法は82%の精度と77%のRAG精度を達成し、微調整なしで以前のRAG精度を全て上回り、ゼロショット結果のベンチマークを新たに設定し、GPT3.5のようなはるかに大きなモデルよりも優れている。
論文 参考訳(メタデータ) (2025-05-23T17:18:45Z) - TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text [11.417612899344697]
セキュリティテキストにおける敵のテクニックの正確な識別は、効果的なサイバー防御に不可欠である。
既存のメソッドは基本的なトレードオフに直面している。ドメインの精度が限られているジェネリックモデルに依存するか、リソース集約的なパイプラインを必要とする。
本稿では,このギャップを埋めるドメイン固有検索拡張生成(RAG)フレームワークであるTechnologyRAGを提案する。
論文 参考訳(メタデータ) (2025-05-17T12:46:10Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization [1.1534313664323637]
ドメインシフト(Domain shift)は、マシンラーニングにおいて、目に見えないドメインでテストした場合に、モデルのパフォーマンス低下に悩まされるという深刻な問題である。
FedDGは、プライバシー保護の方法で協調的なクライアントを使用してグローバルモデルをトレーニングしようと試みている。
本稿では, 誘導正規化方式に依存するFedDGの新しいアーキテクチャ手法,すなわちgPerXANを紹介する。
論文 参考訳(メタデータ) (2024-03-22T20:22:08Z) - Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation [84.82153655786183]
Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案し、セマンティックセグメンテーションのための効率的なワンショットドメイン適応を実現する。
IDMは、最も情報性の高いサンプルを特定するために不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。
提案手法は,GTA5/SYNTHIAからCityscapesへの適応タスクにおいて,既存の手法より優れ,56.7%/55.4%の最先端のワンショット性能を実現している。
論文 参考訳(メタデータ) (2023-09-25T15:56:01Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Style Normalization and Restitution for DomainGeneralization and
Adaptation [88.86865069583149]
効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習することが期待される。
本稿では,ネットワークの高一般化と識別能力を確保するために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。
論文 参考訳(メタデータ) (2021-01-03T09:01:39Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。