論文の概要: Layout-Aware Representation Learning for Open-Set ID Fraud Discovery
- arxiv url: http://arxiv.org/abs/2605.05215v1
- Date: Fri, 17 Apr 2026 01:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.600843
- Title: Layout-Aware Representation Learning for Open-Set ID Fraud Discovery
- Title(参考訳): オープンセットIDフレーダ発見のためのレイアウト認識表現学習
- Authors: Jinxing Li, Nicholas Ren, Cathy Chang, Hongkai Pan, Daniel George,
- Abstract要約: 身元文書不正検出は固定二項分類の問題ではない。
オープンセット詐欺発見のためのレイアウト認識表現学習について検討する。
我々はDINOv3を文脈認識型SimMIMの微調整と教師ありメトリック学習により文書領域に適応させる。
- 参考スコア(独自算出の注目度): 11.215857866184058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identity-document fraud detection is not a stationary binary classification problem. Adaptive attackers modify templates and fabrication pipelines, making historical fraud labels stale, and successful forgeries recur at scale as coherent campaigns. We therefore study layout-aware representation learning for open-set fraud discovery rather than only closed-set classification. We adapt DINOv3 to the document domain via context-aware SimMIM fine-tuning and supervised metric learning with composite loss that encourages inter-class separability and intra-class compactness. The model is trained with U.S. IDs only. With a lightweight MLP and softmax classifier, the embedding achieves 99.83% layout classification accuracy on Canadian layouts. Moreover, on a dataset of 20,448 Canadian IDs, embedding-space analysis surfaces 276 adaptive physical-fraud cases, including 222 not surfaced by incumbent detectors. The embedding supports similarity-based expansion from a single confirmed seed to additional related cases not linked by conventional metadata graphs. The layout-aware document embeddings provide a production-aligned basis for discovering novel and campaign-scale fraud under distribution shift.
- Abstract(参考訳): 身元文書不正検出は固定二項分類の問題ではない。
アダプティブアタッカーはテンプレートや製造パイプラインを変更し、過去の不正ラベルを台無しにし、大まかに偽造をコヒーレントなキャンペーンとして再帰させる。
そこで我々は、クローズド・セットの分類だけでなく、オープン・セットの不正発見のためのレイアウト認識表現学習について研究する。
我々はDINOv3をコンテキスト認識型SimMIMファインタニングと教師付きメトリック学習により文書領域に適応させ,クラス間分離性とクラス内コンパクト性を促進する。
モデルは米国のIDのみで訓練されている。
軽量のMLPとソフトマックスの分類器により、この埋め込みはカナダのレイアウトにおける99.83%のレイアウト分類精度を達成している。
さらに、20,448個のカナダIDのデータセットでは、埋め込み空間解析面が276個の適応的な物理的詐欺事件を処理している。
この埋め込みは、単一の確認されたシードから、従来のメタデータグラフに関連付けられていない追加の関連するケースへの類似性に基づく拡張をサポートする。
レイアウト対応の文書埋め込みは、流通シフト中の新規およびキャンペーンスケール詐欺を発見するための生産整合基盤を提供する。
関連論文リスト
- BlackCATT: Black-box Collusion Aware Traitor Tracing in Federated Learning [51.251962154210474]
フェデレートラーニング: BlackCATT におけるブラックボックストレーサトレースのための一般的なコラシオン耐性埋め込み法を提案する。
実験により,異なるアーキテクチャやデータセットにまたがる提案手法の有効性が確認された。
メインタスクの更新不整合に苦しむモデルに対して,提案したBlackCATT+FRには機能正規化が組み込まれている。
論文 参考訳(メタデータ) (2026-02-12T16:26:57Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - Contrastive Learning Approach for Semi-Supervised Seismic Facies
Identification Using High-Confidence Representations [7.636880727970561]
本研究では, ラベルなしデータの特徴を用いた半教師付き耐震フェーシ同定手法を提案する。
我々は,SEAM AI と Netherlands F3 の2つの公的な地震探査実験を行い,提案モデルは F3 のアノテーションの 1% しか使用せず,90 以上のIOU スコアを達成している。
論文 参考訳(メタデータ) (2022-10-10T15:36:05Z) - Fraud Dataset Benchmark and Applications [25.184342958800293]
Fraud dataset Benchmark(FDB)は、不正検出に特化した公開データセットのコンパイルである。
FDBには、不正なカード非表示トランザクションの識別、ボット攻撃の検出、悪意のあるURLの分類、コンテンツモデレーションに対するローンのデフォルトリスクの推定など、さまざまな不正関連タスクが含まれている。
FDB用のPythonベースのライブラリは、標準化されたトレーニングとテストの分割を伴うデータローディングのための一貫したAPIを提供する。
論文 参考訳(メタデータ) (2022-08-30T17:35:39Z) - Semi-supervised Object Detection via Virtual Category Learning [68.26956850996976]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
具体的には、各混乱したサンプルに仮想圏(VC)が割り当てられる。
トレーニングサンプルと仮想カテゴリの間の埋め込み距離を指定することに起因する。
論文 参考訳(メタデータ) (2022-07-07T16:59:53Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。