Fugu-MT 論文翻訳(概要): MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems in LLM Augmented Generation

論文の概要: MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems in LLM Augmented Generation

arxiv url: http://arxiv.org/abs/2402.14480v1
Date: Thu, 22 Feb 2024 12:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:24:58.088142
Title: MeTMaP: Metamorphic Testing for Detecting False Vector Matching Problems in LLM Augmented Generation
Title（参考訳）: MeTMaP:LLM増強生成における偽ベクトルマッチング問題検出のための変成試験
Authors: Guanyu Wang, Yuekang Li, Yi Liu, Gelei Deng, Tianlin Li, Guosheng Xu, Yang Liu, Haoyu Wang, Kailong Wang
Abstract要約: 本稿では,LLM拡張生成システムにおいて,偽ベクトルマッチングを識別するフレームワークであるMeTMaPを提案する。 MeTMaPは意味論的に類似したテキストは一致すべきであり、異種テキストは一致すべきではないという考えに基づいている。我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。
参考スコア（独自算出の注目度）: 15.382745718541063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Augmented generation techniques such as Retrieval-Augmented Generation (RAG) and Cache-Augmented Generation (CAG) have revolutionized the field by enhancing large language model (LLM) outputs with external knowledge and cached information. However, the integration of vector databases, which serve as a backbone for these augmentations, introduces critical challenges, particularly in ensuring accurate vector matching. False vector matching in these databases can significantly compromise the integrity and reliability of LLM outputs, leading to misinformation or erroneous responses. Despite the crucial impact of these issues, there is a notable research gap in methods to effectively detect and address false vector matches in LLM-augmented generation. This paper presents MeTMaP, a metamorphic testing framework developed to identify false vector matching in LLM-augmented generation systems. We derive eight metamorphic relations (MRs) from six NLP datasets, which form our method's core, based on the idea that semantically similar texts should match and dissimilar ones should not. MeTMaP uses these MRs to create sentence triplets for testing, simulating real-world LLM scenarios. Our evaluation of MeTMaP over 203 vector matching configurations, involving 29 embedding models and 7 distance metrics, uncovers significant inaccuracies. The results, showing a maximum accuracy of only 41.51\% on our tests compared to the original datasets, emphasize the widespread issue of false matches in vector matching methods and the critical need for effective detection and mitigation in LLM-augmented applications.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) や Cache-Augmented Generation (CAG) といった拡張生成技術は、外部知識とキャッシュ情報を備えた大規模言語モデル(LLM)出力を拡張することで、この分野に革命をもたらした。しかし、これらの拡張のバックボーンとなるベクターデータベースの統合は、特に正確なベクターマッチングの確保において重要な課題をもたらす。これらのデータベースにおける偽ベクトルマッチングは、LCM出力の完全性と信頼性を著しく損なう可能性があり、誤情報や誤応答につながる。これらの問題の重大な影響にもかかわらず、LLM増強世代における偽ベクトルマッチングを効果的に検出し、対処する方法には顕著な研究ギャップがある。本稿では,LLM拡張生成システムにおける偽ベクトルマッチングを識別するメタモルフィックテストフレームワークであるMeTMaPを提案する。意味的に類似したテキストは一致すべきであり、類似しないという考え方に基づいて、6つのnlpデータセットから8つのメタモルフィックリレーション(mrs)を導出する。 MeTMaPはこれらのMRを使用して、実世界のLLMシナリオをシミュレートし、テストするための文三つ子を生成する。我々は,29の埋め込みモデルと7つの距離メトリクスを含む203個のベクトルマッチング構成に対するMeTMaPの評価を行った。その結果,従来のデータセットと比較すると,最大41.51\%の精度を示し,ベクトルマッチング法における偽マッチングの広範な問題と,LLM拡張アプリケーションにおける効果的な検出と緩和の要点を強調した。

関連論文リスト

LLM-Independent Adaptive RAG: Let the Question Speak for Itself [47.60917219813637]
大型言語モデル (LLM) は幻覚を起こす傾向があり、検索型拡張生成 (RAG) がこれを助けているが、誤報のリスクが高い計算コストが高い。本研究では,外部情報に基づく軽量LLM非依存適応検索手法を提案する。
論文参考訳（メタデータ） (2025-05-07T08:58:52Z)
Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。 LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。