論文の概要: Oddballness: universal anomaly detection with language models
- arxiv url: http://arxiv.org/abs/2409.03046v1
- Date: Wed, 4 Sep 2024 19:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 22:55:47.918765
- Title: Oddballness: universal anomaly detection with language models
- Title(参考訳): オッドボールネス:言語モデルを用いた普遍的異常検出
- Authors: Filip Graliński, Ryszard Staruch, Krzysztof Jurkiewicz,
- Abstract要約: 本手法は,言語モデルによって生成される確率を考察するが,低自由度トークンに焦点をあてるのではなく,この論文で導入された新しい指標である奇数性を考える。
完全に教師なしの設定が仮定された場合, ランダム性は, 単に低次事象を考慮すればよいという文法的誤り検出タスクを示す。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new method to detect anomalies in texts (in general: in sequences of any data), using language models, in a totally unsupervised manner. The method considers probabilities (likelihoods) generated by a language model, but instead of focusing on low-likelihood tokens, it considers a new metric introduced in this paper: oddballness. Oddballness measures how ``strange'' a given token is according to the language model. We demonstrate in grammatical error detection tasks (a specific case of text anomaly detection) that oddballness is better than just considering low-likelihood events, if a totally unsupervised setup is assumed.
- Abstract(参考訳): 本稿では,言語モデルを用いてテキスト中の異常(一般には任意のデータのシーケンス)を教師なしで検出する手法を提案する。
この手法は、言語モデルによって生成される確率(様相)を考察するが、低様相トークンに焦点をあてるのではなく、この論文で導入された新しい計量である奇異性を考える。
オッドボールネスは、与えられたトークンの ``strange'' が言語モデルに従ってどのようにあるかを測定する。
教師なしのセットアップが仮定された場合, ランダム性は, 単に低次事象を考慮すればよい, という文法的誤り検出タスク(テキスト異常検出の特定の場合)において示す。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection [16.77262005540559]
イベントプロンプトから疑わしい異常の学習を導くための新しい枠組みが提案されている。
これにより、新しいマルチプロンプト学習プロセスにより、すべてのビデオの視覚的セマンティックな特徴を制限できる。
提案手法はAPやAUCといった最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-02T10:42:47Z) - Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot
Performance via Probability Calibration [12.424785560515094]
事前訓練された多言語エンコーダモデルは、入力例をクローゼスタイルのプロンプトに変換することで、ゼロショット多言語タスクや言語探索を直接実行することができる。
この方法は,事前学習中に頻繁に発生するラベル単語の予測に対するモデルのバイアスによって制限される。
モデルによって予測されるラベル語の確率を変化させるキャリブレーション手法と組み合わせる。
論文 参考訳(メタデータ) (2023-10-08T08:31:05Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。