論文の概要: Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus
- arxiv url: http://arxiv.org/abs/2404.08664v1
- Date: Fri, 29 Mar 2024 13:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 20:04:31.248407
- Title: Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus
- Title(参考訳): 特化ラベルコーパスに基づく支援ベクトルマシンショートテキスト分類による銀行取引記述の同定
- Authors: Silvia García-Méndez, Milagros Fernández-Gavilanes, Jonathan Juncal-Martínez, Francisco J. González-Castaño, Oscar Barba Seara,
- Abstract要約: 本稿では,自然言語処理技術と機械学習アルゴリズムを組み合わせて,銀行取引記述を分類する新しいシステムについて述べる。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示する。
- 参考スコア(独自算出の注目度): 7.046417074932257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short texts are omnipresent in real-time news, social network commentaries, etc. Traditional text representation methods have been successfully applied to self-contained documents of medium size. However, information in short texts is often insufficient, due, for example, to the use of mnemonics, which makes them hard to classify. Therefore, the particularities of specific domains must be exploited. In this article we describe a novel system that combines Natural Language Processing techniques with Machine Learning algorithms to classify banking transaction descriptions for personal finance management, a problem that was not previously considered in the literature. We trained and tested that system on a labelled dataset with real customer transactions that will be available to other researchers on request. Motivated by existing solutions in spam detection, we also propose a short text similarity detector to reduce training set size based on the Jaccard distance. Experimental results with a two-stage classifier combining this detector with a SVM indicate a high accuracy in comparison with alternative approaches, taking into account complexity and computing time. Finally, we present a use case with a personal finance application, CoinScrap, which is available at Google Play and App Store.
- Abstract(参考訳): 短いテキストは、リアルタイムニュースやソーシャルネットワークのコメンタリーなどで一目でわかる。
従来のテキスト表現法は中規模の自己完結型文書にうまく適用されてきた。
しかし、例えば、mnemonicsの使用により、短いテキストの情報は不十分であることが多く、分類が困難である。
したがって、特定のドメインの特異性を利用する必要がある。
本稿では、自然言語処理技術と機械学習アルゴリズムを組み合わせて、個人金融管理のための銀行取引記述を分類する新しいシステムについて述べる。
私たちは、このシステムをラベル付きデータセット上でトレーニングし、テストしました。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
この検出器とSVMを組み合わせた2段階の分類器による実験結果から,複雑性と計算時間を考慮して,他の手法と比較して高い精度を示す。
最後に、Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示します。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Scalable and Weakly Supervised Bank Transaction Classification [0.0]
本稿では,弱い監督,自然言語処理,深層ニューラルネットワークトレーニングを用いて,銀行取引を分類することを目的とする。
データ前処理、トランザクションテキストの埋め込み、アンカー化、ラベル生成、識別ニューラルネットワークトレーニングを含む、効果的でスケーラブルなエンドツーエンドデータパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-28T23:12:12Z) - Actively Discovering New Slots for Task-oriented Conversation [19.815466126158785]
本稿では,ループ内学習を実現するため,情報抽出方式で汎用的なスロットタスクを提案する。
我々は既存の言語ツールを活用し、対応するラベルが弱い監視信号として利用される値候補を抽出する。
いくつかの公開データセットに対して広範な実験を行い、競合するベースラインを多数比較して手法を実証する。
論文 参考訳(メタデータ) (2023-05-06T13:33:33Z) - A pipeline and comparative study of 12 machine learning models for text
classification [0.0]
テキストベースのコミュニケーションは、特にビジネス環境では、コミュニケーション方法として非常に好まれる。
テキスト分類のための多くの機械学習手法が提案され、ほとんどのメールプロバイダのサービスに組み込まれている。
しかし、テキスト分類アルゴリズムを最適化し、攻撃性に関する適切なトレードオフを見つけることは、依然として大きな研究課題である。
論文 参考訳(メタデータ) (2022-04-04T23:51:22Z) - Multi-class Text Classification using BERT-based Active Learning [4.028503203417233]
顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。
BERTベースのモデルは自然言語理解でうまく機能することが証明されています。
マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。
論文 参考訳(メタデータ) (2021-04-27T19:49:39Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。