論文の概要: Check Field Detection Agent (CFD-Agent) using Multimodal Large Language and Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.18405v1
- Date: Mon, 22 Sep 2025 20:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.578007
- Title: Check Field Detection Agent (CFD-Agent) using Multimodal Large Language and Vision Language Models
- Title(参考訳): マルチモーダル大言語と視覚言語モデルを用いたチェックフィールド検出エージェント(CFD-Agent)
- Authors: Sourav Halder, Jinjun Tong, Xinyu Wu,
- Abstract要約: 自動チェックフィールド検出のための新しいトレーニングフリーフレームワークを提案する。
当社のアプローチでは,チェックコンポーネントのゼロショット検出が可能で,実世界の金融環境におけるデプロイメントの障壁を大幅に低減する。
- 参考スコア(独自算出の注目度): 7.836288735110501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checks remain a foundational instrument in the financial ecosystem, facilitating substantial transaction volumes across institutions. However, their continued use also renders them a persistent target for fraud, underscoring the importance of robust check fraud detection mechanisms. At the core of such systems lies the accurate identification and localization of critical fields, such as the signature, magnetic ink character recognition (MICR) line, courtesy amount, legal amount, payee, and payer, which are essential for subsequent verification against reference checks belonging to the same customer. This field-level detection is traditionally dependent on object detection models trained on large, diverse, and meticulously labeled datasets, a resource that is scarce due to proprietary and privacy concerns. In this paper, we introduce a novel, training-free framework for automated check field detection, leveraging the power of a vision language model (VLM) in conjunction with a multimodal large language model (MLLM). Our approach enables zero-shot detection of check components, significantly lowering the barrier to deployment in real-world financial settings. Quantitative evaluation of our model on a hand-curated dataset of 110 checks spanning multiple formats and layouts demonstrates strong performance and generalization capability. Furthermore, this framework can serve as a bootstrap mechanism for generating high-quality labeled datasets, enabling the development of specialized real-time object detection models tailored to institutional needs.
- Abstract(参考訳): チェックは金融エコシステムの基礎的な手段であり続けており、機関間の取引量を大幅に増やしている。
しかし、その継続的な使用は、不正行為の永続的な標的となり、堅牢なチェック詐欺検出メカニズムの重要性を強調している。
このようなシステムの中核には、署名、磁気インク文字認識(MICR)ライン、礼量、法定金額、支払者、支払者といった重要な分野の正確な識別と位置決めがあり、これはその後、同一顧客に属する参照チェックに対する検証に不可欠である。
このフィールドレベルの検出は、伝統的に、プロプライエタリとプライバシの懸念から不足している、大規模で多様で慎重にラベル付けされたデータセットでトレーニングされたオブジェクト検出モデルに依存している。
本稿では,視覚言語モデル(VLM)とMLLM(Multimodal large language model)を併用した,自動チェックフィールド検出のための新しい学習自由フレームワークを提案する。
当社のアプローチでは,チェックコンポーネントのゼロショット検出が可能で,実世界の金融環境におけるデプロイメントの障壁を大幅に低減する。
複数のフォーマットとレイアウトにまたがる110のチェックを手作業で計算したデータセット上で,我々のモデルを定量的に評価し,高い性能と一般化能力を示す。
さらに、このフレームワークは高品質なラベル付きデータセットを生成するブートストラップ機構として機能し、制度的なニーズに合わせた特殊なリアルタイムオブジェクト検出モデルの開発を可能にする。
関連論文リスト
- Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - InspectVLM: Unified in Theory, Unreliable in Practice [0.0]
統一視覚言語モデル(VLM)は、単一の言語駆動インタフェース内で複数の視覚タスクをフレキシブルにすることで、コンピュータビジョンパイプラインの合理化を約束する。
InspectMMをトレーニングしたFlorence-2ベースのVLMであるInspectVLMを用いて,この統一パラダイムの有効性を批判的に評価する。
論文 参考訳(メタデータ) (2025-08-03T21:09:35Z) - Deep Learning Approaches for Anti-Money Laundering on Mobile Transactions: Review, Framework, and Directions [51.43521977132062]
マネーロンダリング(英: Money laundering)は、不正資金の起源を隠蔽する金融犯罪である。
モバイル決済プラットフォームとスマートIoTデバイスの普及は、マネーロンダリング対策をかなり複雑にしている。
本稿では,AMLにおけるディープラーニングソリューションとその利用に関する課題について,包括的レビューを行う。
論文 参考訳(メタデータ) (2025-03-13T05:19:44Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences [0.0]
本稿では,金融取引の文脈的埋め込みを得るための生成事前学習手法を提案する。
さらに,510億の取引を含む180の発行銀行のデータコーパスを用いて,埋め込みモデルの大規模事前学習を行う。
論文 参考訳(メタデータ) (2024-01-03T09:32:48Z) - MMRNet: Improving Reliability for Multimodal Object Detection and
Segmentation for Bin Picking via Multimodal Redundancy [68.7563053122698]
マルチモーダル冗長性(MMRNet)を用いた信頼度の高いオブジェクト検出・分割システムを提案する。
これは、マルチモーダル冗長の概念を導入し、デプロイ中のセンサ障害問題に対処する最初のシステムである。
システム全体の出力信頼性と不確実性を測定するために,すべてのモダリティからの出力を利用する新しいラベルフリーマルチモーダル整合性(MC)スコアを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。