論文の概要: MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems
in LLM Augmented Generation
- arxiv url: http://arxiv.org/abs/2402.14480v1
- Date: Thu, 22 Feb 2024 12:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:24:58.088142
- Title: MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems
in LLM Augmented Generation
- Title(参考訳): MeTMaP:LLM増強生成における偽ベクトルマッチング問題検出のための変成試験
- Authors: Guanyu Wang, Yuekang Li, Yi Liu, Gelei Deng, Tianlin Li, Guosheng Xu,
Yang Liu, Haoyu Wang, Kailong Wang
- Abstract要約: 本稿では,LLM拡張生成システムにおいて,偽ベクトルマッチングを識別するフレームワークであるMeTMaPを提案する。
MeTMaPは意味論的に類似したテキストは一致すべきであり、異種テキストは一致すべきではないという考えに基づいている。
我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。
- 参考スコア(独自算出の注目度): 15.382745718541063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmented generation techniques such as Retrieval-Augmented Generation (RAG)
and Cache-Augmented Generation (CAG) have revolutionized the field by enhancing
large language model (LLM) outputs with external knowledge and cached
information. However, the integration of vector databases, which serve as a
backbone for these augmentations, introduces critical challenges, particularly
in ensuring accurate vector matching. False vector matching in these databases
can significantly compromise the integrity and reliability of LLM outputs,
leading to misinformation or erroneous responses. Despite the crucial impact of
these issues, there is a notable research gap in methods to effectively detect
and address false vector matches in LLM-augmented generation. This paper
presents MeTMaP, a metamorphic testing framework developed to identify false
vector matching in LLM-augmented generation systems. We derive eight
metamorphic relations (MRs) from six NLP datasets, which form our method's
core, based on the idea that semantically similar texts should match and
dissimilar ones should not. MeTMaP uses these MRs to create sentence triplets
for testing, simulating real-world LLM scenarios. Our evaluation of MeTMaP over
203 vector matching configurations, involving 29 embedding models and 7
distance metrics, uncovers significant inaccuracies. The results, showing a
maximum accuracy of only 41.51\% on our tests compared to the original
datasets, emphasize the widespread issue of false matches in vector matching
methods and the critical need for effective detection and mitigation in
LLM-augmented applications.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) や Cache-Augmented Generation (CAG) といった拡張生成技術は、外部知識とキャッシュ情報を備えた大規模言語モデル(LLM)出力を拡張することで、この分野に革命をもたらした。
しかし、これらの拡張のバックボーンとなるベクターデータベースの統合は、特に正確なベクターマッチングの確保において重要な課題をもたらす。
これらのデータベースにおける偽ベクトルマッチングは、LCM出力の完全性と信頼性を著しく損なう可能性があり、誤情報や誤応答につながる。
これらの問題の重大な影響にもかかわらず、LLM増強世代における偽ベクトルマッチングを効果的に検出し、対処する方法には顕著な研究ギャップがある。
本稿では,LLM拡張生成システムにおける偽ベクトルマッチングを識別するメタモルフィックテストフレームワークであるMeTMaPを提案する。
意味的に類似したテキストは一致すべきであり、類似しないという考え方に基づいて、6つのnlpデータセットから8つのメタモルフィックリレーション(mrs)を導出する。
MeTMaPはこれらのMRを使用して、実世界のLLMシナリオをシミュレートし、テストするための文三つ子を生成する。
我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。
その結果,従来のデータセットと比較すると,最大41.51\%の精度を示し,ベクトルマッチング法における偽マッチングの広範な問題と,LLM拡張アプリケーションにおける効果的な検出と緩和の要点を強調した。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。