論文の概要: Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance
- arxiv url: http://arxiv.org/abs/2004.10035v1
- Date: Tue, 21 Apr 2020 14:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:25:08.086482
- Title: Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance
- Title(参考訳): 自然言語検索性能向上のための認知検索パターンの活用
- Authors: Bhawani Selvaretnam, Mohammed Belkhatir
- Abstract要約: ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The search of information in large text repositories has been plagued by the
so-called document-query vocabulary gap, i.e. the semantic discordance between
the contents in the stored document entities on the one hand and the human
query on the other hand. Over the past two decades, a significant body of works
has advanced technical retrieval prowess while several studies have shed light
on issues pertaining to human search behavior. We believe that these efforts
should be conjoined, in the sense that automated retrieval systems have to
fully emulate human search behavior and thus consider the procedure according
to which users incrementally enhance their initial query. To this end,
cognitive reformulation patterns that mimic user search behaviour are
highlighted and enhancement terms which are statistically collocated with or
lexical-semantically related to the original terms adopted in the retrieval
process. We formalize the application of these patterns by considering a query
conceptual representation and introducing a set of operations allowing to
operate modifications on the initial query. A genetic algorithm-based weighting
process allows placing emphasis on terms according to their conceptual
role-type. An experimental evaluation on real-world datasets against relevance,
language, conceptual and knowledge-based models is conducted. We also show,
when compared to language and relevance models, a better performance in terms
of mean average precision than a word embedding-based model instantiation.
- Abstract(参考訳): 大規模なテキストリポジトリにおける情報の検索は、いわゆるドキュメントクエリの語彙ギャップ、すなわち、保存されたドキュメントエンティティ内のコンテンツと、その一方で人間のクエリとの間の意味的不一致に悩まされている。
過去20年間、重要な研究機関が技術検索を進歩させ、いくつかの研究が人間の検索行動に関する問題に光を当ててきた。
私たちは、自動検索システムが人間の検索行動を完全にエミュレートする必要があるという意味で、これらの取り組みは結合されるべきであると信じており、ユーザが最初のクエリを段階的に強化する手順を考慮すべきである。
この目的のために、ユーザの検索行動を模倣する認知的再構成パターンを強調し、検索プロセスで採用された元の用語と統計的にコロケーションまたは語彙論的に関連づけられた強調語を強調する。
クエリ概念表現を考慮し,初期クエリの変更操作を可能にする操作セットを導入することで,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
関連度,言語,概念,知識に基づくモデルに対する実世界データセットの実験的評価を行った。
また,言語モデルや関連モデルと比較した場合,単語埋め込みに基づくモデルのインスタンス化よりも平均精度が向上することを示した。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Enhancing Cloud-Based Large Language Model Processing with Elasticsearch
and Transformer Models [17.09116903102371]
LLM(Large Language Models)は、Transformerネットワークを使用して構築された生成AIモデルのクラスである。
LLMは膨大なデータセットを活用して、言語を特定し、要約し、翻訳し、予測し、生成することができる。
大規模言語モデルにおける意味ベクトル探索は,検索結果の精度と妥当性を大幅に向上させる強力な手法である。
論文 参考訳(メタデータ) (2024-02-24T12:31:22Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z) - Coupled intrinsic and extrinsic human language resource-based query
expansion [0.0]
本稿では,クエリ構成エンコーディングや拡張概念抽出,概念重み付けといった言語特性を活かしたクエリ拡張フレームワークを提案する。
実世界のデータセットに対する徹底的な経験的評価は、ユニグラム言語モデル、関連モデル、逐次依存に基づく手法に対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-23T11:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。