論文の概要: LLmFPCA-detect: LLM-powered Multivariate Functional PCA for Anomaly Detection in Sparse Longitudinal Texts
- arxiv url: http://arxiv.org/abs/2512.14604v1
- Date: Tue, 16 Dec 2025 17:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.810894
- Title: LLmFPCA-detect: LLM-powered Multivariate Functional PCA for Anomaly Detection in Sparse Longitudinal Texts
- Title(参考訳): LLmFPCA-detect: LLMを用いた多変量機能PCAによる小経時テキストの異常検出
- Authors: Prasanjit Dubey, Aritra Guha, Zhengyi Zhou, Qiong Wu, Xiaoming Huo, Paromita Dubey,
- Abstract要約: LLmFPCA-detectは,テキスト埋め込みと関数型データ解析を組み合わせたフレキシブルなフレームワークである。
まず、LLmFPCA-detectは各テキストをアプリケーション固有の数値空間に埋め込む。
既存のパイプラインの機能として使用されるLLmFPCA-detectのクラスタ固有の機能的PCスコアは,予測性能の向上に役立つことを示す。
- 参考スコア(独自算出の注目度): 14.399535070837912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse longitudinal (SL) textual data arises when individuals generate text repeatedly over time (e.g., customer reviews, occasional social media posts, electronic medical records across visits), but the frequency and timing of observations vary across individuals. These complex textual data sets have immense potential to inform future policy and targeted recommendations. However, because SL text data lack dedicated methods and are noisy, heterogeneous, and prone to anomalies, detecting and inferring key patterns is challenging. We introduce LLmFPCA-detect, a flexible framework that pairs LLM-based text embeddings with functional data analysis to detect clusters and infer anomalies in large SL text datasets. First, LLmFPCA-detect embeds each piece of text into an application-specific numeric space using LLM prompts. Sparse multivariate functional principal component analysis (mFPCA) conducted in the numeric space forms the workhorse to recover primary population characteristics, and produces subject-level scores which, together with baseline static covariates, facilitate data segmentation, unsupervised anomaly detection and inference, and enable other downstream tasks. In particular, we leverage LLMs to perform dynamic keyword profiling guided by the data segments and anomalies discovered by LLmFPCA-detect, and we show that cluster-specific functional PC scores from LLmFPCA-detect, used as features in existing pipelines, help boost prediction performance. We support the stability of LLmFPCA-detect with experiments and evaluate it on two different applications using public datasets, Amazon customer-review trajectories, and Wikipedia talk-page comment streams, demonstrating utility across domains and outperforming state-of-the-art baselines.
- Abstract(参考訳): Sparse longitudinal (SL) textual data は、個人が繰り返しテキストを生成する(例えば、顧客レビュー、たまにソーシャルメディア投稿、訪問中の電子カルテ)ときに発生するが、観察の頻度とタイミングは個人によって異なる。
これらの複雑なテキストデータセットは、将来のポリシーや対象とするレコメンデーションを通知する大きな可能性を秘めている。
しかし、SLテキストデータには専用手法がなく、ノイズがあり、異質であり、異常が生じるため、鍵パターンの検出と推論は困難である。
LLmFPCA-detectはLLMベースのテキスト埋め込みと関数データ解析を組み合わせてクラスタを検出し,大規模なSLテキストデータセットの異常を推測するフレキシブルなフレームワークである。
まず、LLmFPCA-detectはLLMプロンプトを使用して各テキストをアプリケーション固有の数値空間に埋め込む。
数値空間で実行されるスパース多変量関数主成分分析(mFPCA)は、一次個体群特性を回復するために作業場を形成し、ベースラインの静的共変量とともにデータセグメンテーションを促進し、教師なしの異常検出と推論を行い、他の下流タスクを可能にする主観レベルスコアを生成する。
特に,LLmFPCA-detectで発見されたデータセグメントや異常によって誘導される動的キーワードのプロファイリングをLCMを用いて行い,既存のパイプラインの機能として使用されるLLmFPCA-detectのクラスタ固有の機能的PCスコアが予測性能の向上に役立つことを示す。
LLmFPCA-detectの安定性を実験でサポートし、パブリックデータセット、Amazonの顧客レビュートラジェクトリ、Wikipediaのトークページコメントストリームを使用して2つの異なるアプリケーションで評価し、ドメイン間の有用性を実証し、最先端のベースラインより優れた性能を発揮する。
関連論文リスト
- LLM as an Algorithmist: Enhancing Anomaly Detectors via Programmatic Synthesis [40.82779720776548]
大きな言語モデル(LLM)は驚くべき推論能力を示している。
我々のフレームワークは、LLMを「データプロセッサ」から「アルゴリズム」に再配置する。
論文 参考訳(メタデータ) (2025-10-04T19:00:51Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - Vulnerability of LLMs to Vertically Aligned Text Manipulations [130.54118945532898]
垂直テキスト入力は、数学計算や単語ベースのスドクパズルなど、様々な現実世界のアプリケーションでよく見られる。
近年の研究では、エンコーダベースのモデルで単語を垂直に整列させるような入力形式の変更は、テキスト分類タスクにおいて大幅に精度を低下させることが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。