論文の概要: Beyond Traditional Algorithms: Leveraging LLMs for Accurate Cross-Border Entity Identification
- arxiv url: http://arxiv.org/abs/2507.11086v1
- Date: Tue, 15 Jul 2025 08:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.038735
- Title: Beyond Traditional Algorithms: Leveraging LLMs for Accurate Cross-Border Entity Identification
- Title(参考訳): 従来のアルゴリズムを超えて: クロスボーダエンティティの正確な識別にLLMを活用する
- Authors: Andres Azqueta-Gavaldón, Joaquin Ramos Cosgrove,
- Abstract要約: 国境を越えた金融活動は、外国のエンティティを正確に識別し分類する必要性を浮き彫りにした。
本稿では,Large Language Models (LLM) を従来のアルゴリズムの柔軟な代替品として検討する。
従来の手法,Hugging FaceベースのLLM,インターフェースベースのLLM(Microsoft Copilot,AlibabaのQwen 2.5など)を,65のポルトガル企業ケースのデータセットを使用して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing prevalence of cross-border financial activities in global markets has underscored the necessity of accurately identifying and classifying foreign entities. This practice is essential within the Spanish financial system for ensuring robust risk management, regulatory adherence, and the prevention of financial misconduct. This process involves a labor-intensive entity-matching task, where entities need to be validated against available reference sources. Challenges arise from linguistic variations, special characters, outdated names, and changes in legal forms, complicating traditional matching algorithms like Jaccard, cosine, and Levenshtein distances. These methods struggle with contextual nuances and semantic relationships, leading to mismatches. To address these limitations, we explore Large Language Models (LLMs) as a flexible alternative. LLMs leverage extensive training to interpret context, handle abbreviations, and adapt to legal transitions. We evaluate traditional methods, Hugging Face-based LLMs, and interface-based LLMs (e.g., Microsoft Copilot, Alibaba's Qwen 2.5) using a dataset of 65 Portuguese company cases. Results show traditional methods achieve accuracies over 92% but suffer high false positive rates (20-40%). Interface-based LLMs outperform, achieving accuracies above 93%, F1 scores exceeding 96%, and lower false positives (40-80%).
- Abstract(参考訳): グローバル市場におけるクロスボーダー金融活動の普及は、外国企業を正確に識別し分類する必要性を浮き彫りにしている。
この慣行は、ロバストなリスク管理、規制の遵守、金融上の不正行為の防止を確保するために、スペインの金融システムにおいて不可欠である。
このプロセスには、利用可能な参照ソースに対してエンティティを検証する必要がある、労働集約型のエンティティマッチングタスクが含まれる。
課題は、ジャカード、コサイン、レヴェンシュテイン距離といった伝統的なマッチングアルゴリズムを複雑にし、言語的なバリエーション、特殊文字、時代遅れの名前、法的形態の変化から生じる。
これらの手法は文脈的なニュアンスや意味的な関係に悩まされ、ミスマッチにつながる。
これらの制限に対処するため、我々はLarge Language Models (LLM) をフレキシブルな代替品として検討する。
LLMは、文脈を解釈し、略語を扱い、法的移行に適応するために広範な訓練を利用する。
従来の手法,Hugging FaceベースのLLM,インターフェースベースのLLM(例:Microsoft Copilot,AlibabaのQwen 2.5)を,65のポルトガル企業ケースのデータセットを用いて評価した。
その結果,従来の手法では92%以上の精度が得られたが,偽陽性率(20~40%)が高いことがわかった。
LLMは93%以上,F1スコアは96%以上,偽陽性は40~80%以下であった。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [35.6424858476337]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission [65.17811759381978]
ハイブリッド言語モデル(HLM)は、遠隔大言語モデル(LLM)によって検証され、修正されるドラフトトークンを生成する。
通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMは、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら、最大206$times$高いトークンスループットを達成することを示す。
論文 参考訳(メタデータ) (2025-05-17T02:10:34Z) - Towards Robust Knowledge Representations in Multilingual LLMs for Equivalence and Inheritance based Consistent Reasoning [5.656040546546711]
推論と言語スキルは人間の知性の基盤を形成し、問題解決と意思決定を促進する。
大規模言語モデル(LLM)の最近の進歩は、印象的な言語機能と突発的な推論行動をもたらし、アプリケーションドメインで広く採用されている。
我々は、LLMが「等価性」と「継承性」という2つの基礎的関係を用いて、合理的な表現を持つかどうかを評価することに注力する。
論文 参考訳(メタデータ) (2024-10-18T07:34:21Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - General LLMs as Instructors for Domain-Specific LLMs: A Sequential Fusion Method to Integrate Extraction and Editing [12.017822691367705]
複雑な文脈からの知識をLarge Language Models (LLM) に統合するための逐次融合法を提案する。
本手法を用いて,質問応答におけるドメイン固有LCMの精度は71.7%(平均39.1%)に達した。
これらの知見は、FDoR-ULにおけるアプローチの有効性と柔軟性を、様々な領域で示している。
論文 参考訳(メタデータ) (2024-03-23T06:03:36Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。