論文の概要: Anomaly Detection of Tabular Data Using LLMs
- arxiv url: http://arxiv.org/abs/2406.16308v1
- Date: Mon, 24 Jun 2024 04:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.303619
- Title: Anomaly Detection of Tabular Data Using LLMs
- Title(参考訳): LLMを用いた語彙データの異常検出
- Authors: Aodong Li, Yunhan Zhao, Chen Qiu, Marius Kloft, Padhraic Smyth, Maja Rudolph, Stephan Mandt,
- Abstract要約: 我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
- 参考スコア(独自算出の注目度): 54.470648484612866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown their potential in long-context understanding and mathematical reasoning. In this paper, we study the problem of using LLMs to detect tabular anomalies and show that pre-trained LLMs are zero-shot batch-level anomaly detectors. That is, without extra distribution-specific model fitting, they can discover hidden outliers in a batch of data, demonstrating their ability to identify low-density data regions. For LLMs that are not well aligned with anomaly detection and frequently output factual errors, we apply simple yet effective data-generating processes to simulate synthetic batch-level anomaly detection datasets and propose an end-to-end fine-tuning strategy to bring out the potential of LLMs in detecting real anomalies. Experiments on a large anomaly detection benchmark (ODDS) showcase i) GPT-4 has on-par performance with the state-of-the-art transductive learning-based anomaly detection methods and ii) the efficacy of our synthetic dataset and fine-tuning strategy in aligning LLMs to this task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文理解や数学的推論においてその可能性を示している。
本稿では,LLMを用いて表層異常を検知し,事前学習したLCMがゼロショットバッチレベルの異常検出器であることを示す。
つまり、余分な分布固有のモデルフィッティングがなければ、複数のデータに隠された外れ値を発見し、低密度のデータ領域を識別する能力を示すことができる。
異常検出と頻繁な事実誤差に整合しないLCMに対しては,合成バッチレベルの異常検出データセットをシミュレートするために,単純かつ効果的なデータ生成プロセスを適用し,実異常検出におけるLCMのポテンシャルを生かしたエンドツーエンドの微調整戦略を提案する。
大規模異常検出ベンチマーク(ODDS)の展示実験
一)GPT-4は、最先端のトランスダクティブ学習に基づく異常検出方法及び異常検出方法と同等の性能を有する。
二 この課題にLLMを合わせるための合成データセットと微調整戦略の有効性。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Large Language Models Engineer Too Many Simple Features For Tabular Data [40.5799600333219]
大規模言語モデル (LLM) が機能工学のパフォーマンスに悪影響を及ぼすバイアスを示すかどうかを検討する。
LLMによって提案される演算子の周波数の異常を検出することにより,潜在的なバイアスを検出する手法を提案する。
以上の結果から,LSMは加法などの単純な演算子に偏りがあり,グループ化やアグリゲーションなどの複雑な演算子を利用できないことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T11:37:20Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Unsupervised Anomaly Detection via Nonlinear Manifold Learning [0.0]
異常は、残りのデータから著しく逸脱するサンプルであり、その検出は機械学習モデルを構築する上で大きな役割を果たす。
非線形多様体学習に基づく頑健で効率的かつ解釈可能な手法を導入し,教師なし設定における異常を検出する。
論文 参考訳(メタデータ) (2023-06-15T18:48:10Z) - AGAD: Adversarial Generative Anomaly Detection [12.68966318231776]
異常検出は,異常の多様性と大規模異常データ取得の困難さにより異常の欠如に悩まされた。
本稿では,自己コントラストに基づく異常検出パラダイムであるAdversarial Generative Anomaly Detection (AGAD)を提案する。
本手法は,教師付きおよび半教師付き両方の異常検出シナリオに対して擬似異常データを生成する。
論文 参考訳(メタデータ) (2023-04-09T10:40:02Z) - Out-Of-Bag Anomaly Detection [0.9449650062296822]
データ異常は、実世界のデータセットでユビキタスであり、機械学習(ML)システムに悪影響を及ぼす可能性がある。
本稿では,新しいモデルに基づく異常検出手法を提案し,その手法をアウト・オブ・バグ検出と呼ぶ。
本手法は,家庭評価のケーススタディを通じて,データ前処理のステップとして,MLシステムの精度と信頼性を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-20T06:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。