論文の概要: Compressing Search with Language Models
- arxiv url: http://arxiv.org/abs/2407.00085v1
- Date: Mon, 24 Jun 2024 17:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:34:23.964964
- Title: Compressing Search with Language Models
- Title(参考訳): 言語モデルによる検索圧縮
- Authors: Thomas Mulc, Jennifer L. Steele,
- Abstract要約: 本稿では,探索データの次元性を低減するための新しい手法を提案する。
私たちは、ユーザー定義のルールなしで、個々の用語で多くの情報を保持します。
実世界の事象を検索データのみを用いて推定するための制約付き検索モデルであるCoSMoを提案する。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of people turn to Google Search each day for information on things as diverse as new cars or flu symptoms. The terms that they enter contain valuable information on their daily intent and activities, but the information in these search terms has been difficult to fully leverage. User-defined categorical filters have been the most common way to shrink the dimensionality of search data to a tractable size for analysis and modeling. In this paper we present a new approach to reducing the dimensionality of search data while retaining much of the information in the individual terms without user-defined rules. Our contributions are two-fold: 1) we introduce SLaM Compression, a way to quantify search terms using pre-trained language models and create a representation of search data that has low dimensionality, is memory efficient, and effectively acts as a summary of search, and 2) we present CoSMo, a Constrained Search Model for estimating real world events using only search data. We demonstrate the efficacy of our contributions by estimating with high accuracy U.S. automobile sales and U.S. flu rates using only Google Search data.
- Abstract(参考訳): 毎日何百万人もの人が、新しい車やインフルエンザの症状などさまざまな情報を求めてGoogle検索に目を向けている。
入力される用語には、日常の意図や活動に関する貴重な情報が含まれているが、これらの検索用語の情報は、完全に活用することは困難である。
ユーザ定義分類フィルタは,検索データの次元を,解析とモデリングのための抽出可能なサイズに縮小する最も一般的な方法である。
本稿では,ユーザ定義ルールを使わずに,個々の用語の情報を多く保持しながら,検索データの次元性を低下させる新しい手法を提案する。
私たちの貢献は2つあります。
1) SLaM Compressionは、事前訓練された言語モデルを用いて検索語を定量化し、低次元でメモリ効率が高く、検索の要約として効果的に機能する検索データの表現を作成する方法である。
2)CoSMoは,検索データのみを用いて実世界の事象を推定するための制約付き検索モデルである。
我々は、Google検索データのみを用いて、米国の自動車販売と米国のインフルエンザ率を高精度に推定することで、私たちの貢献の有効性を実証する。
関連論文リスト
- PseudoSeer: a Search Engine for Pseudocode [18.726136894285403]
疑似コードを含む学術論文の効率的な検索と検索を容易にするために、新しい擬似コード検索エンジンが設計された。
スニペットを活用することで、ユーザはタイトル、抽象情報、著者情報、コードスニペットなど、紙のさまざまな面を検索できる。
重み付けされたBM25ベースのランキングアルゴリズムを検索エンジンで使用し、検索結果の優先順位付け時に考慮される要因について述べる。
論文 参考訳(メタデータ) (2024-11-19T16:58:03Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Enhanced Facet Generation with LLM Editing [5.4327243200369555]
情報検索においては,ユーザクエリのファセット識別が重要な課題である。
従来の研究は,検索によって得られた検索文書や関連クエリを活用することで,ファセット予測を強化することができる。
しかし、検索エンジンがモデルの一部として動作する場合、他のアプリケーションに拡張することは困難である。
論文 参考訳(メタデータ) (2024-03-25T00:43:44Z) - BASES: Large-scale Web Search User Simulation with Large Language Model
based Agents [108.97507653131917]
BASESは、大きな言語モデル(LLM)を持つ新しいユーザーシミュレーションフレームワークである。
シミュレーションフレームワークは,大規模に独自のユーザプロファイルを生成することができ,その結果,多様な検索行動が生まれる。
WARRIORSは、中国語と英語の両方のバージョンを含む、Web検索ユーザ行動を含む、新しい大規模なデータセットである。
論文 参考訳(メタデータ) (2024-02-27T13:44:09Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - An Analysis of Abstractive Text Summarization Using Pre-trained Models [4.339043862780233]
本稿では,テキスト要約のための事前学習モデルについて,異なるデータセットで評価する。
我々は,CNN-dailymail,SAMSum,BillSumの3つの異なるデータセットを検討した。
事前トレーニングされたモデルは、ROUGHとBLEUメトリクスを使用して、これらの異なるデータセット、それぞれ2000の例と比較される。
論文 参考訳(メタデータ) (2023-02-25T16:44:37Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines [0.0]
本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。
この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
論文 参考訳(メタデータ) (2021-03-01T07:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。