論文の概要: Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance
- arxiv url: http://arxiv.org/abs/2004.10035v1
- Date: Tue, 21 Apr 2020 14:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:25:08.086482
- Title: Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance
- Title(参考訳): 自然言語検索性能向上のための認知検索パターンの活用
- Authors: Bhawani Selvaretnam, Mohammed Belkhatir
- Abstract要約: ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The search of information in large text repositories has been plagued by the
so-called document-query vocabulary gap, i.e. the semantic discordance between
the contents in the stored document entities on the one hand and the human
query on the other hand. Over the past two decades, a significant body of works
has advanced technical retrieval prowess while several studies have shed light
on issues pertaining to human search behavior. We believe that these efforts
should be conjoined, in the sense that automated retrieval systems have to
fully emulate human search behavior and thus consider the procedure according
to which users incrementally enhance their initial query. To this end,
cognitive reformulation patterns that mimic user search behaviour are
highlighted and enhancement terms which are statistically collocated with or
lexical-semantically related to the original terms adopted in the retrieval
process. We formalize the application of these patterns by considering a query
conceptual representation and introducing a set of operations allowing to
operate modifications on the initial query. A genetic algorithm-based weighting
process allows placing emphasis on terms according to their conceptual
role-type. An experimental evaluation on real-world datasets against relevance,
language, conceptual and knowledge-based models is conducted. We also show,
when compared to language and relevance models, a better performance in terms
of mean average precision than a word embedding-based model instantiation.
- Abstract(参考訳): 大規模なテキストリポジトリにおける情報の検索は、いわゆるドキュメントクエリの語彙ギャップ、すなわち、保存されたドキュメントエンティティ内のコンテンツと、その一方で人間のクエリとの間の意味的不一致に悩まされている。
過去20年間、重要な研究機関が技術検索を進歩させ、いくつかの研究が人間の検索行動に関する問題に光を当ててきた。
私たちは、自動検索システムが人間の検索行動を完全にエミュレートする必要があるという意味で、これらの取り組みは結合されるべきであると信じており、ユーザが最初のクエリを段階的に強化する手順を考慮すべきである。
この目的のために、ユーザの検索行動を模倣する認知的再構成パターンを強調し、検索プロセスで採用された元の用語と統計的にコロケーションまたは語彙論的に関連づけられた強調語を強調する。
クエリ概念表現を考慮し,初期クエリの変更操作を可能にする操作セットを導入することで,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
関連度,言語,概念,知識に基づくモデルに対する実世界データセットの実験的評価を行った。
また,言語モデルや関連モデルと比較した場合,単語埋め込みに基づくモデルのインスタンス化よりも平均精度が向上することを示した。
関連論文リスト
- Enhancing Cloud-Based Large Language Model Processing with Elasticsearch
and Transformer Models [17.09116903102371]
LLM(Large Language Models)は、Transformerネットワークを使用して構築された生成AIモデルのクラスである。
LLMは膨大なデータセットを活用して、言語を特定し、要約し、翻訳し、予測し、生成することができる。
大規模言語モデルにおける意味ベクトル探索は,検索結果の精度と妥当性を大幅に向上させる強力な手法である。
論文 参考訳(メタデータ) (2024-02-24T12:31:22Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Language Models As Semantic Indexers [80.76133595275728]
生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。
本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。
学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Automated Query Generation for Evidence Collection from Web Search
Engines [2.642698101441705]
インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。
このプロセスでは、事実に基づいて検索クエリを定式化し、それを検索エンジンに提示するためにファクトチェッカーが必要である。
まず,第1ステップ,問合せ生成の自動化が可能かどうかを問う。
論文 参考訳(メタデータ) (2023-03-15T14:32:00Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z) - Coupled intrinsic and extrinsic human language resource-based query
expansion [0.0]
本稿では,クエリ構成エンコーディングや拡張概念抽出,概念重み付けといった言語特性を活かしたクエリ拡張フレームワークを提案する。
実世界のデータセットに対する徹底的な経験的評価は、ユニグラム言語モデル、関連モデル、逐次依存に基づく手法に対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-23T11:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。