論文の概要: A categorical error sensitivity index (ISEC): A preventive ordinal decision-support measure for irrecoverable errors in manual data entry systems
- arxiv url: http://arxiv.org/abs/2605.12328v1
- Date: Tue, 12 May 2026 16:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.998664
- Title: A categorical error sensitivity index (ISEC): A preventive ordinal decision-support measure for irrecoverable errors in manual data entry systems
- Title(参考訳): カテゴリー的エラー感度指数(ISEC):手動データ入力システムにおける不可発見エラーに対する予防的順序決定支援指標
- Authors: Ricardo Raúl Palma, Mauro Anibal Benetti, Fabricio Orlando Sanchez Varretti,
- Abstract要約: 本稿では,分類的誤り感指数 (Categorical Error Sensitivity Index, ISEC) について紹介する。
ISECは、意味的距離(単語埋め込みによる)、カスタマイズされた重み付け形態素変換コスト、経験的頻度を統一された数学的に堅牢な予防フレームワークに統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data entry systems remain structurally vulnerable to categorical misclassifications, particularly in small and medium sized enterprises (SMEs). When nominal categories exhibit semantic or morphological proximity, human machine interaction may produce errors that are irrecoverable ex post. In the absence of automated input controls, manual data entry frequently generates irrecoverable categorical distortions that propagate into Key Performance Indicators (KPIs), thereby misleading managerial decision making. State of the art normalization tools typically evaluate semantic and morphological dimensions in isolation and rely heavily on standard dictionaries, rendering them ineffective for SME master data rich in custom SKUs, abbreviations, and domain-specific technical jargon. This paper introduces the Categorical Error Sensitivity Index (ISEC), an ordinal composite score designed to rank category pairs according to their structural susceptibility to confusion. ISEC integrates semantic distance (via word embeddings), custom weighted morphological transformation costs (through an adapted Damerau Levenshtein algorithm), and empirical frequency into a unified, mathematically robust preventive framework. By leveraging vector database architectures, ISEC reduces computational complexity, achieving approximately a 195x performance improvement over brute-force methods. Validated across three heterogeneous datasets: governmental judicial records, retail inventory, and a synthetic ISO coded metalworking catalog, ISEC provides a scalable and proactive data governance instrument that enables SMEs to detect latent structural risk embedded within their categorical data assets.
- Abstract(参考訳): データ入力システムは、特に中小企業(中小企業)において、分類上の誤分類に対して構造的に脆弱なままである。
名目カテゴリーが意味的または形態的近接を示す場合、人間の機械の相互作用は発見不可能なエラーを引き起こす可能性がある。
自動入力制御がない場合、手動のデータ入力は、キーパフォーマンス指標(KPI)に伝播する発見不可能なカテゴリの歪みを頻繁に発生し、管理上の意思決定を誤解させる。
最先端の正規化ツールは通常、独立して意味的および形態的次元を評価し、標準辞書に大きく依存し、カスタムSKU、略語、ドメイン固有の技術的用語に富んだ中小企業のマスターデータには効果がない。
本稿では,分類的誤り感指数 (Categorical Error Sensitivity Index, ISEC) について紹介する。
ISECは、意味的距離(単語の埋め込みによる)、カスタマイズされた重み付き形態素変換コスト(ダミラウ・レヴェンシュテインアルゴリズムによる)、経験的頻度を統一的で数学的に堅牢な予防フレームワークに統合する。
ベクトルデータベースアーキテクチャを活用することで、ISECは計算の複雑さを減らし、ブルートフォース法よりも約195倍の性能向上を達成する。
政府の司法記録、小売在庫、ISOコード化された金属加工カタログの3つの異種データセットで検証され、ICSはスケーラブルでプロアクティブなデータガバナンス機器を提供し、中小企業が分類データ資産に埋め込まれた潜在的構造的リスクを検出する。
関連論文リスト
- CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - AgentScore: Autoformulation of Deployable Clinical Scoring Systems [45.88028371034407]
本稿では,単位重み付き臨床チェックリストのセマンティックガイドによる最適化を行うAgentScoreを紹介する。
AgentScoreは既存のスコア生成方法より優れており、より柔軟な解釈可能なモデルに匹敵するAUCを実現している。
さらに2つの外部検証タスクにおいて、AgentScoreは、確立されたガイドラインベースのスコアよりも高い差別を達成する。
論文 参考訳(メタデータ) (2026-01-29T21:11:06Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping [0.9595254895337946]
本稿では,非意味的関係データセットにおいて,意味論的に同一の列を自動的に識別し,グループ化する新しい文字レベルオートエンコーダ(CAE)手法を提案する。
意味的解釈可能性の制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は固定辞書制約で文字レベルで動作する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2025-11-10T22:07:22Z) - LVLMs as inspectors: an agentic framework for category-level structural defect annotation [3.2445985501669434]
エージェントベースの新しいエージェントアノテーションフレームワークであるDefect Pattern Taggerが導入された。
これはLVLM(Large Vision-Language Models)とセマンティックパターンマッチングモジュールと反復的な自己探索機構を統合している。
生の視覚データを高品質でセマンティックにラベル付けされた欠陥データセットに変換する。
論文 参考訳(メタデータ) (2025-10-01T07:31:42Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Coarse Set Theory for AI Ethics and Decision-Making: A Mathematical Framework for Granular Evaluations [0.0]
粗い倫理 (CE) は、文字のグレードや警告ラベルなどの粗い評価を、認知的および文脈的制約の下で倫理的に適切であるものとして正当化する理論的な枠組みである。
本稿では、完全順序構造と粗い分割を用いた粗粒度決定をモデル化する新しい数学的枠組みである粗粒度集合論(CST)を紹介する。
CSTは集合間の階層的関係を定義し、Kulback-Leibler Divergenceのような情報理論ツールを使用して、単純化と情報損失の間のトレードオフを定量化する。
論文 参考訳(メタデータ) (2025-02-11T08:18:37Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Supervised Discriminative Sparse PCA with Adaptive Neighbors for
Dimensionality Reduction [47.1456603605763]
そこで本研究では, 適応隣り合わせの線形次元削減手法(SDSPCAAN)を提案する。
その結果、グローバルデータ構造とローカルデータ構造、およびラベル情報の両方が、より次元性の低減に使用される。
論文 参考訳(メタデータ) (2020-01-09T17:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。