論文の概要: Towards Token-Level Text Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.13644v1
- Date: Tue, 20 Jan 2026 06:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.180557
- Title: Towards Token-Level Text Anomaly Detection
- Title(参考訳): token-Level Text Anomaly Detection に向けて
- Authors: Yang Cao, Bicheng Yu, Sikun Yang, Ming Liu, Yujiu Yang,
- Abstract要約: 本稿では,テキスト中の異常の微粒化を可能にする新しいパラダイムであるトークンレベルの異常検出手法を提案する。
文書レベルとトークンレベルの両方でテキスト異常を正式に定義し,複数のレベルにまたがる統合検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.821180044375176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite significant progress in text anomaly detection for web applications such as spam filtering and fake news detection, existing methods are fundamentally limited to document-level analysis, unable to identify which specific parts of a text are anomalous. We introduce token-level anomaly detection, a novel paradigm that enables fine-grained localization of anomalies within text. We formally define text anomalies at both document and token-levels, and propose a unified detection framework that operates across multiple levels. To facilitate research in this direction, we collect and annotate three benchmark datasets spanning spam, reviews and grammar errors with token-level labels. Experimental results demonstrate that our framework get better performance than other 6 baselines, opening new possibilities for precise anomaly localization in text. All the codes and data are publicly available on https://github.com/charles-cao/TokenCore.
- Abstract(参考訳): スパムフィルタリングや偽ニュース検出などのWebアプリケーションにおけるテキスト異常検出の大幅な進歩にもかかわらず、既存の手法は基本的に文書レベルの解析に限られており、どのテキストが異常であるかを特定できない。
本稿では,テキスト内の異常の微粒化を可能にする新しいパラダイムであるトークンレベルの異常検出手法を提案する。
文書レベルとトークンレベルの両方でテキスト異常を正式に定義し,複数のレベルにまたがる統合検出フレームワークを提案する。
この方向の研究を容易にするために,スパム,レビュー,文法エラーを含む3つのベンチマークデータセットをトークンレベルのラベルで収集し,注釈付けする。
実験の結果,本フレームワークは他の6つのベースラインよりも性能が向上し,テキストの精度の高い局所化が可能となった。
すべてのコードとデータはhttps://github.com/charles-cao/TokenCoreで公開されている。
関連論文リスト
- How Sampling Affects the Detectability of Machine-written texts: A Comprehensive Study [39.866323800060066]
大きな言語モデル(LLM)はますます一般的になってきており、人間による内容とは区別がつかないことが多い。
最近の多くの検出器は精度がほぼ完璧であると報告しており、AUROCのスコアは99%を超えている。
本研究では,サンプリングに基づく復号化が検出可能性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-10-15T15:36:45Z) - Anomaly Detection in Human Language via Meta-Learning: A Few-Shot Approach [0.0]
本稿では,ラベル付きデータに制限のある多種多様な領域にまたがる人間の言語における異常を検出する枠組みを提案する。
異常検出を数発のバイナリ分類問題として扱い、メタラーニングを活用してタスクを一般化するモデルを訓練する。
提案手法は,エピソードトレーニングと原型ネットワークとドメイン再サンプリングを組み合わせることで,新しい異常検出タスクに迅速に適応する。
論文 参考訳(メタデータ) (2025-07-26T17:23:03Z) - Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。
本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。
ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文 参考訳(メタデータ) (2025-07-16T14:47:41Z) - TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。
これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。
我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文 参考訳(メタデータ) (2025-03-26T10:56:59Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。