論文の概要: Normalisation of SWIFT Message Counterparties with Feature Extraction and Clustering
- arxiv url: http://arxiv.org/abs/2508.21081v1
- Date: Sun, 24 Aug 2025 12:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.804264
- Title: Normalisation of SWIFT Message Counterparties with Feature Extraction and Clustering
- Title(参考訳): 特徴抽出とクラスタリングによるSWIFTメッセージカウンタの正規化
- Authors: Thanasis Schoinas, Benjamin Guinard, Diba Esbati, Richard Chalk,
- Abstract要約: 本稿では,取引相手のクラスタリングを容易にするために,ハイブリッド文字列類似性,トピックモデリング,階層クラスタリング,ルールベースのパイプラインを提案する。
このアプローチは、ルールベースのシステムで見られるほとんどの解釈可能性を保持しており、前者は後者に追加のレベルのクラスタリファインメントを追加する。
制裁調査など、人口のごく一部だけを調査する必要がある場合、この手法は、欠落した個体変動のリスクをよりよく制御することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short text clustering is a known use case in the text analytics community. When the structure and content falls in the natural language domain e.g. Twitter posts or instant messages, then natural language techniques can be used, provided texts are of sufficient length to allow for use of (pre)trained models to extract meaningful information, such as part-of-speech or topic annotations. However, natural language models are not suitable for clustering transaction counterparties, as they are found in bank payment messaging systems, such as SWIFT. The manually typed tags are typically physical or legal entity details, which lack sentence structure, while containing all the variations and noise that manual entry introduces. This leaves a gap in an investigator or counter-fraud professional's toolset when looking to augment their knowledge of payment flow originator and beneficiary entities and trace funds and assets. A gap that vendors traditionally try to close with fuzzy matching tools. With these considerations in mind, we are proposing a hybrid string similarity, topic modelling, hierarchical clustering and rule-based pipeline to facilitate clustering of transaction counterparties, also catering for unknown number of expected clusters. We are also devising metrics to supplement the evaluation of the approach, based on the well-known measures of precision and recall. Testing on a real-life labelled dataset demonstrates significantly improved performance over a baseline rule-based ('keyword') approach. The approach retains most of the interpretability found in rule-based systems, as the former adds an additional level of cluster refinement to the latter. The resulting workflow reduces the need for manual review. When only a subset of the population needs to be investigated, such as in sanctions investigations, the approach allows for better control of the risks of missing entity variations.
- Abstract(参考訳): 短いテキストクラスタリングは、テキスト分析コミュニティで知られているユースケースである。
構造とコンテンツが、例えばTwitterの投稿やインスタントメッセージのような自然言語領域に落ちてくると、自然言語のテクニックが使える。
しかし、自然言語モデルは、SWIFTのような銀行決済メッセージングシステムで見られるように、取引相手のクラスタリングには適していない。
手動入力されたタグは、典型的には物理的または法的実体の詳細であり、文構造が欠けている一方で、手動入力が導入するすべてのバリエーションとノイズを含んでいる。
このことは、支払いフローの創始者や受益者に関する知識を増強し、資金や資産を追跡しようとするときに、調査員や反詐欺専門家の道具セットにギャップを残している。
ベンダーが伝統的にファジィマッチングツールで閉じようとするギャップ。
これらの考慮を念頭に、未知数のクラスタのクラスタリングを容易にするために、ハイブリッド文字列の類似性、トピックモデリング、階層クラスタリング、ルールベースのパイプラインを提案しています。
我々はまた、精度とリコールのよく知られた尺度に基づいて、アプローチの評価を補完する指標を考案している。
実生活のラベル付きデータセットのテストは、ベースラインルールベースの("keyword")アプローチよりも大幅に改善されたパフォーマンスを示している。
このアプローチは、ルールベースのシステムで見られるほとんどの解釈可能性を保持しており、前者は後者に追加のレベルのクラスタリファインメントを追加する。
ワークフローの結果、手作業によるレビューの必要性が軽減される。
制裁調査など、人口のごく一部だけを調査する必要がある場合、この手法は、欠落した個体変動のリスクをよりよく制御することができる。
関連論文リスト
- Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis [4.14197005718384]
データセットのアノテーションに必要な時間とリソースが限られている場合、ゼロショット設定で大きな言語モデルを活用することは有益である、と我々は主張する。
本稿では,大規模言語モデルのトークンレベルの不確実性スコアを活用することで,複数のチェーンオブ思考エージェントを組み合わせる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-24T08:51:16Z) - Enhancing Retrieval Augmented Generation with Hierarchical Text Segmentation Chunking [0.9968037829925942]
本稿では階層的なテキストセグメンテーションとクラスタリングを統合してRAGを強化する新しいフレームワークを提案する。
推論中、このフレームワークはセグメントレベルのベクトル表現とクラスタレベルのベクトル表現の両方を活用することで情報を取得する。
ナラティブQA,Quality,QASPERデータセットの評価は,従来のチャンキング手法と比較して,提案手法が改善したことを示している。
論文 参考訳(メタデータ) (2025-07-14T05:21:58Z) - Cequel: Cost-Effective Querying of Large Language Models for Text Clustering [15.179854529085544]
テキストクラスタリングは、文書の集合を言語的特徴に基づく一貫性のあるグループに自動的に分割することを目的としている。
大規模言語モデル(LLM)の最近の進歩は、高品質な文脈適応型埋め込みを提供することにより、この分野を著しく改善している。
LLMクエリの限られた予算下で正確なテキストクラスタリングを実現するための費用効率のよいフレームワークであるCequelを提案する。
論文 参考訳(メタデータ) (2025-04-22T06:57:49Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - Identifying Banking Transaction Descriptions via Support Vector Machine Short-Text Classification Based on a Specialized Labelled Corpus [7.046417074932257]
本稿では,自然言語処理技術と機械学習アルゴリズムを組み合わせて,銀行取引記述を分類する新しいシステムについて述べる。
また,スパム検出における既存のソリューションに触発されて,ジャカード距離に基づくトレーニングセットサイズの削減を目的とした,短いテキスト類似度検出手法を提案する。
Google PlayとApp Storeで利用可能なパーソナルファイナンスアプリケーションCoinScrapのユースケースを提示する。
論文 参考訳(メタデータ) (2024-03-29T13:15:46Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。