論文の概要: Iterative NLP Query Refinement for Enhancing Domain-Specific Information Retrieval: A Case Study in Career Services
- arxiv url: http://arxiv.org/abs/2412.17075v1
- Date: Sun, 22 Dec 2024 15:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:47.867400
- Title: Iterative NLP Query Refinement for Enhancing Domain-Specific Information Retrieval: A Case Study in Career Services
- Title(参考訳): ドメイン特化情報検索のための反復的NLPクエリリファインメント:キャリアサービスにおけるケーススタディ
- Authors: Elham Peimani, Gurpreet Singh, Nisarg Mahyavanshi, Aman Arora, Awais Shaikh,
- Abstract要約: ニッチドメインにおける意味的関連文書の検索は、TF-IDFベースのシステムにとって大きな課題となる。
本稿では,Humber CollegeのキャリアサービスWebページに合わせて,反復的かつ半自動的なクエリリファインメント手法を提案する。
- 参考スコア(独自算出の注目度): 0.13980986259786224
- License:
- Abstract: Retrieving semantically relevant documents in niche domains poses significant challenges for traditional TF-IDF-based systems, often resulting in low similarity scores and suboptimal retrieval performance. This paper addresses these challenges by introducing an iterative and semi-automated query refinement methodology tailored to Humber College's career services webpages. Initially, generic queries related to interview preparation yield low top-document similarities (approximately 0.2--0.3). To enhance retrieval effectiveness, we implement a two-fold approach: first, domain-aware query refinement by incorporating specialized terms such as resources-online-learning, student-online-services, and career-advising; second, the integration of structured educational descriptors like "online resume and interview improvement tools." Additionally, we automate the extraction of domain-specific keywords from top-ranked documents to suggest relevant terms for query expansion. Through experiments conducted on five baseline queries, our semi-automated iterative refinement process elevates the average top similarity score from approximately 0.18 to 0.42, marking a substantial improvement in retrieval performance. The implementation details, including reproducible code and experimental setups, are made available in our GitHub repositories \url{https://github.com/Elipei88/HumberChatbotBackend} and \url{https://github.com/Nisarg851/HumberChatbot}. We also discuss the limitations of our approach and propose future directions, including the integration of advanced neural retrieval models.
- Abstract(参考訳): ニッチドメインにおける意味的関連文書の検索は、TF-IDFベースのシステムにとって重要な課題となり、しばしば類似度が低く、準最適検索性能が低下する。
本稿では,Humber CollegeのキャリアサービスWebページに合わせて,反復的かつ半自動的なクエリリファインメント手法を導入することで,これらの課題に対処する。
当初、面接準備に関連する一般的なクエリは、トップドキュメントの類似度が低い(約0.2--0.3)。
まず、リソース・オンライン・ラーニング、学生・オンライン・サービス、キャリア・アドバイザリングといった専門用語を取り入れたドメイン・アウェア・クエリ・リファインメント(ドメイン・アウェア・クエリ・リファインメント)、そして第2に、「オンライン・リカイン・インタヴュー・インタヴュー・改善・ツール」のような構造化された教育記述子の統合である。
さらに、上位文書からドメイン固有のキーワードを抽出し、クエリ拡張のための関連用語を提案する。
5つのベースラインクエリで行った実験により、半自動反復精錬プロセスにより、平均最高類似度スコアが約0.18から0.42に上昇し、検索性能が大幅に向上した。
再現可能なコードや実験的なセットアップを含む実装の詳細は、GitHubリポジトリの \url{https://github.com/Elipei88/HumberChatbotBackend} と \url{https://github.com/Nisarg851/HumberChatbot} で公開されています。
また、我々のアプローチの限界について議論し、先進的なニューラル検索モデルの統合を含む今後の方向性を提案する。
関連論文リスト
- Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。
提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。
合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T20:55:21Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Learning to Retrieve for Job Matching [22.007634436648427]
本稿では、LinkedInの求人・推薦システムを強化するための学習検索技術の適用について論じる。
確認された雇用データを利用して求職者の求職資格を評価するグラフを構築し、学習したリンクを検索に活用する。
従来の逆インデックスに基づく解に加えて、KNNと項マッチングの両方を効率的にサポートできるon-GPUソリューションを開発した。
論文 参考訳(メタデータ) (2024-02-21T00:05:25Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。