論文の概要: A System for Name and Address Parsing with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.18014v1
- Date: Sun, 25 Jan 2026 22:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.58464
- Title: A System for Name and Address Parsing with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた名前と住所の構文解析システム
- Authors: Adeeba Tarannum, Muzakkiruddin Ahmed Mohammed, Mert Can Cakmak, Shames Al Mandalawi, John Talburt,
- Abstract要約: 本稿では,フリーテキストレコードを微調整なしで一貫した17フィールドスキーマに変換する,プロンプト駆動型検証中心フレームワークを提案する。
不均一な実世界のアドレスデータに対する評価は、高いフィールドレベルの精度、強いスキーマ順守、安定した信頼度キャリブレーションを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable transformation of unstructured person and address text into structured data remains a key challenge in large-scale information systems. Traditional rule-based and probabilistic approaches perform well on clean inputs but fail under noisy or multilingual conditions, while neural and large language models (LLMs) often lack deterministic control and reproducibility. This paper introduces a prompt-driven, validation-centered framework that converts free-text records into a consistent 17-field schema without fine-tuning. The method integrates input normalisation, structured prompting, constrained decoding, and strict rule-based validation under fixed experimental settings to ensure reproducibility. Evaluations on heterogeneous real-world address data show high field-level accuracy, strong schema adherence, and stable confidence calibration. The results demonstrate that combining deterministic validation with generative prompting provides a robust, interpretable, and scalable solution for structured information extraction, offering a practical alternative to training-heavy or domain-specific models.
- Abstract(参考訳): 構造化されていない人物と住所のテキストを構造化データに変換することは、大規模な情報システムにおいて重要な課題である。
従来の規則に基づく確率論的アプローチはクリーンな入力ではうまく機能するが、ノイズや多言語条件下では失敗するが、ニューラル言語モデル(LLM)は決定論的制御と再現性に欠けることが多い。
本稿では,フリーテキストレコードを微調整なしで一貫した17フィールドスキーマに変換する,プロンプト駆動型検証中心フレームワークを提案する。
本手法は, 入力正規化, 構造化プロンプト, 制約付き復号化, 厳密なルールベース検証を固定実験条件下で統合し, 再現性を確保する。
不均一な実世界のアドレスデータに対する評価は、高いフィールドレベルの精度、強いスキーマ順守、安定した信頼度キャリブレーションを示す。
その結果、決定論的検証と生成的プロンプトを組み合わせることで、構造化情報抽出のための堅牢で解釈可能なスケーラブルなソリューションが提供され、トレーニング重モデルやドメイン固有モデルに代わる実用的な代替手段が提供されることが示された。
関連論文リスト
- A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Generating Highly Structured Test Inputs Leveraging Constraint-Guided Graph Refinement [4.121384394709256]
本研究では,グラフベース表現を用いて,構造化ドメインに対するテスト入力を統一できるかどうかを検討する。
我々は,8つのAIシステムにおける入力妥当性とセマンティックな保存性を高めるために,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2025-07-28T18:54:04Z) - ADALog: Adaptive Unsupervised Anomaly detection in Logs with Self-attention Masked Language Model [2.55347686868565]
ADALogは適応的で教師なしの異常検出フレームワークである。
個々の非構造化ログで動作し、ログ内のコンテキスト関係を抽出し、通常のデータに対して適応しきい値を設定する。
BGL,Thunderbird,Spiritのベンチマークデータセット上でADALogを評価する。
論文 参考訳(メタデータ) (2025-05-15T17:31:40Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [50.6382396309597]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model [34.1224836768324]
FEVEROUSは、事実抽出と検証タスクに焦点を当てた、ベンチマークおよび研究イニシアチブである。
本稿では,モダリティ変換の必要性を解消する,単純だが強力なモデルを提案する。
提案手法は,異なるデータ型間の遅延接続を効果的に利用することにより,包括的かつ信頼性の高い検証予測を実現する。
論文 参考訳(メタデータ) (2024-03-26T03:54:25Z) - You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。