論文の概要: LLMs for Test Input Generation for Semantic Caches
- arxiv url: http://arxiv.org/abs/2401.08138v1
- Date: Tue, 16 Jan 2024 06:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:03:57.532132
- Title: LLMs for Test Input Generation for Semantic Caches
- Title(参考訳): セマンティックキャッシュのためのテスト入力生成用LCM
- Authors: Zafaryab Rasool, Scott Barnett, David Willie, Stefanus Kurniawan,
Sherwin Balugo, Srikanth Thudumu, Mohamed Abdelrazek
- Abstract要約: 大規模言語モデル(LLM)は、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
規模によっては、何千ものユーザーへのサービス提供コストは、ユーザーエクスペリエンスにも大きく影響します。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用するアプローチであるVaryGenを提案する。
- 参考スコア(独自算出の注目度): 1.8628177380024746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) enable state-of-the-art semantic capabilities to
be added to software systems such as semantic search of unstructured documents
and text generation. However, these models are computationally expensive. At
scale, the cost of serving thousands of users increases massively affecting
also user experience. To address this problem, semantic caches are used to
check for answers to similar queries (that may have been phrased differently)
without hitting the LLM service. Due to the nature of these semantic cache
techniques that rely on query embeddings, there is a high chance of errors
impacting user confidence in the system. Adopting semantic cache techniques
usually requires testing the effectiveness of a semantic cache (accurate cache
hits and misses) which requires a labelled test set of similar queries and
responses which is often unavailable. In this paper, we present VaryGen, an
approach for using LLMs for test input generation that produces similar
questions from unstructured text documents. Our novel approach uses the
reasoning capabilities of LLMs to 1) adapt queries to the domain, 2) synthesise
subtle variations to queries, and 3) evaluate the synthesised test dataset. We
evaluated our approach in the domain of a student question and answer system by
qualitatively analysing 100 generated queries and result pairs, and conducting
an empirical case study with an open source semantic cache. Our results show
that query pairs satisfy human expectations of similarity and our generated
data demonstrates failure cases of a semantic cache. Additionally, we also
evaluate our approach on Qasper dataset. This work is an important first step
into test input generation for semantic applications and presents
considerations for practitioners when calibrating a semantic cache.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されていない文書のセマンティック検索やテキスト生成など、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。
しかし、これらのモデルは計算コストが高い。
大規模な場合、何千ものユーザをサービスするコストは、ユーザエクスペリエンスにも大きな影響を与えます。
この問題に対処するために、セマンティックキャッシュを使用して、LLMサービスにぶつかることなく、類似したクエリ(異なるフレーズで呼ばれた可能性がある)の回答をチェックする。
クエリ埋め込みに依存するこれらのセマンティックキャッシュ技術の性質から、システムに対するユーザの信頼度に影響を与えるエラーの確率が高い。
セマンティックキャッシュ技術を採用する場合、通常、セマンティックキャッシュ(正確なキャッシュヒットとミス)の有効性をテストする必要がある。
本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用する方法であるVaryGenを提案する。
我々の新しいアプローチは llmsの推論能力を使って
1)クエリをドメインに適応させる。
2)クエリの微妙なバリエーションを合成し、
3) 合成テストデータセットを評価する。
我々は,100のクエリと結果ペアを定性的に分析し,オープンソースセマンティックキャッシュを用いた経験的ケーススタディを行うことにより,学生問合せシステムの領域における我々のアプローチを評価した。
結果から,クエリペアは類似性に対する人間の期待を満足し,生成したデータはセマンティックキャッシュの障害ケースを示す。
さらに、Qasperデータセットに対する我々のアプローチを評価します。
この作業はセマンティクスアプリケーションのテスト入力生成への重要な第一歩であり、セマンティクスキャッシュのキャリブレーションにおいて実践者のために考慮すべき事項である。
関連論文リスト
- Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Context Aware Query Rewriting for Text Rankers using LLM [5.164642900490078]
テキストランキングタスクのクエリ書き直し改善のための大規模モデルの有用性を解析する。
私たちは、コンテキスト対応クエリ書き換え(CAR)と呼ばれる、シンプルだが驚くほど効果的なアプローチを採用しています。
書き直しクエリを使ってランク付けを行うと、パスランキングタスクでは最大33%、ドキュメントランキングタスクでは最大28%の大幅な改善が得られます。
論文 参考訳(メタデータ) (2023-08-31T14:19:50Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Searching for Better Database Queries in the Outputs of Semantic Parsers [16.221439565760058]
本稿では,テスト時に生成したクエリを評価する外部基準にアクセスできる場合を考える。
クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。
我々は、最先端のセマンティクスにアプローチを適用し、異なるデータセットですべてのテストを通過する多くのクエリを見つけることができると報告します。
論文 参考訳(メタデータ) (2022-10-13T17:20:45Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Leveraging Cognitive Search Patterns to Enhance Automated Natural
Language Retrieval Performance [0.0]
ユーザの検索行動を模倣する認知的再構成パターンが強調されている。
問合せの概念表現を考慮し,これらのパターンの適用を形式化する。
遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。
論文 参考訳(メタデータ) (2020-04-21T14:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。