論文の概要: Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations
- arxiv url: http://arxiv.org/abs/2601.17786v1
- Date: Sun, 25 Jan 2026 10:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.334812
- Title: Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations
- Title(参考訳): 単一視点を超えて:多視点言語表現を用いたテキスト異常検出
- Authors: Yixin Liu, Kehan Yan, Shiyuan Li, Qingfeng Chen, Shirui Pan,
- Abstract要約: テキスト異常検出(TAD)は、有害なコンテンツモデレーション、フィッシング検出、スパムレビューフィルタリングなど、様々な言語による現実世界のアプリケーションにおいて重要な役割を果たす。
2段階の「埋め込み-検出」TAD手法は最先端のパフォーマンスを示しているが、その効果は単一の埋め込みモデルを使用することと、多様なデータセットや異常なタイプにまたがる適応性の欠如によって制限されることが多い。
本稿では,複数の事前学習言語モデルからの埋め込みを利用して,マルチビューTADフレームワークである$MCA2$に統合することを提案する。
- 参考スコア(独自算出の注目度): 48.7146621463489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text anomaly detection (TAD) plays a critical role in various language-driven real-world applications, including harmful content moderation, phishing detection, and spam review filtering. While two-step "embedding-detector" TAD methods have shown state-of-the-art performance, their effectiveness is often limited by the use of a single embedding model and the lack of adaptability across diverse datasets and anomaly types. To address these limitations, we propose to exploit the embeddings from multiple pretrained language models and integrate them into $MCA^2$, a multi-view TAD framework. $MCA^2$ adopts a multi-view reconstruction model to effectively extract normal textual patterns from multiple embedding perspectives. To exploit inter-view complementarity, a contrastive collaboration module is designed to leverage and strengthen the interactions across different views. Moreover, an adaptive allocation module is developed to automatically assign the contribution weight of each view, thereby improving the adaptability to diverse datasets. Extensive experiments on 10 benchmark datasets verify the effectiveness of $MCA^2$ against strong baselines. The source code of $MCA^2$ is available at https://github.com/yankehan/MCA2.
- Abstract(参考訳): テキスト異常検出(TAD)は、有害なコンテンツモデレーション、フィッシング検出、スパムレビューフィルタリングなど、様々な言語による現実世界のアプリケーションにおいて重要な役割を果たす。
2段階の「埋め込み-検出」TAD手法は最先端のパフォーマンスを示しているが、その効果は単一の埋め込みモデルを使用することと、多様なデータセットや異常なタイプにまたがる適応性の欠如によって制限されることが多い。
これらの制約に対処するため、複数の事前訓練された言語モデルからの埋め込みを利用して、MCA^2$というマルチビューTADフレームワークに統合することを提案する。
MCA^2$はマルチビュー再構成モデルを採用し、複数の埋め込みの観点から通常のテキストパターンを効果的に抽出する。
ビュー間の相補性を活用するために、異なるビュー間のインタラクションを活用、強化するコントラスト的な協調モジュールが設計されている。
さらに、各ビューの寄与重量を自動的に割り当てるアダプティブアロケーションモジュールを開発し、多様なデータセットへの適応性を向上させる。
10のベンチマークデータセットに対する大規模な実験は、強力なベースラインに対する$MCA^2$の有効性を検証する。
$MCA^2$のソースコードはhttps://github.com/yankehan/MCA2で入手できる。
関連論文リスト
- MultiCaption: Detecting disinformation using multilingual visual claims [10.69065586825833]
視覚的クレームの矛盾を検出するために特別に設計されたデータセットであるMultiCaptionを提案する。
結果として得られたデータセットは、64言語で11,088の視覚的クレームで構成されている。
マルチリンガルトレーニングとテストの成果は、効果的にマルチリンガルのファクトチェックパイプラインを構築するためのデータセットの可能性を強調している。
論文 参考訳(メタデータ) (2026-01-16T11:57:07Z) - A$^2$M$^2$-Net: Adaptively Aligned Multi-Scale Moment for Few-Shot Action Recognition [56.79651392604733]
A$2$M$2$-Netは、強い表現のための適応アライメントプロトコルを確立することで、困難な時間的ミスアライメント問題に対処することができる。
実験は広く使われている5つのFSARベンチマークで行われ、その結果、A$2$M$2$-Netは最先端技術と比較して非常に競争力のある性能を示している。
論文 参考訳(メタデータ) (2025-09-22T11:44:14Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。