論文の概要: Improving Applicability of Deep Learning based Token Classification models during Training
- arxiv url: http://arxiv.org/abs/2504.01028v1
- Date: Fri, 28 Mar 2025 17:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:52.703463
- Title: Improving Applicability of Deep Learning based Token Classification models during Training
- Title(参考訳): 深層学習に基づく剣の分類モデルの適用性向上
- Authors: Anket Mehra, Malte Prieß, Marian Himstedt,
- Abstract要約: F1-Scoreで表される分類基準は、実際に機械学習モデルの適用性を評価するには不十分であることを示す。
本稿では,視覚的文書理解とトークン分類タスクのソリューションとして,文書統合精度(Document Integrity Precision, DIP)を導入した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper shows that further evaluation metrics during model training are needed to decide about its applicability in inference. As an example, a LayoutLM-based model is trained for token classification in documents. The documents are German receipts. We show that conventional classification metrics, represented by the F1-Score in our experiments, are insufficient for evaluating the applicability of machine learning models in practice. To address this problem, we introduce a novel metric, Document Integrity Precision (DIP), as a solution for visual document understanding and the token classification task. To the best of our knowledge, nothing comparable has been introduced in this context. DIP is a rigorous metric, describing how many documents of the test dataset require manual interventions. It enables AI researchers and software developers to conduct an in-depth investigation of the level of process automation in business software. In order to validate DIP, we conduct experiments with our created models to highlight and analyze the impact and relevance of DIP to evaluate if the model should be deployed or not in different training settings. Our results demonstrate that existing metrics barely change for isolated model impairments, whereas DIP indicates that the model requires substantial human interventions in deployment. The larger the set of entities being predicted, the less sensitive conventional metrics are, entailing poor automation quality. DIP, in contrast, remains a single value to be interpreted for entire entity sets. This highlights the importance of having metrics that focus on the business task for model training in production. Since DIP is created for the token classification task, more research is needed to find suitable metrics for other training tasks.
- Abstract(参考訳): 本稿では,モデルトレーニングにおけるさらなる評価指標が,推論の適用性を決定するために必要であることを示す。
例えば、LayoutLMベースのモデルは文書のトークン分類のために訓練されている。
書類はドイツの領収書です。
本実験では,F1スコアで表される従来の分類基準は,機械学習モデルの適用性を評価するには不十分であることを示す。
この問題に対処するために、視覚的文書理解とトークン分類タスクのためのソリューションとして、新しいメトリクスである文書統合精度(DIP)を導入する。
私たちの知る限りでは、この文脈に匹敵するものは何もありません。
DIPは厳密な測定基準であり、テストデータセットのドキュメント数が手作業による介入を必要とするかを記述している。
これにより、AI研究者やソフトウェア開発者は、ビジネスソフトウェアにおけるプロセス自動化のレベルを詳細に調査することができる。
DIPを検証するために、我々は作成したモデルを用いて実験を行い、DIPの影響と妥当性を強調し、分析し、モデルが異なるトレーニング環境でデプロイされるべきかどうかを評価する。
我々の結果は、既存のメトリクスは、孤立したモデル障害に対してほとんど変化しないことを示しているが、DIPは、モデルが配備に相当な人的介入を必要とすることを示している。
予測されるエンティティの集合が大きくなるほど、従来のメトリクスの感度が低下し、自動化品質が低下します。
対照的に、DIPは、エンティティセット全体に対して解釈される単一の値のままである。
これは、本番環境でモデルトレーニングを行うビジネスタスクにフォーカスするメトリクスを持つことの重要性を強調します。
DIPはトークン分類タスクのために作成されるので、他のトレーニングタスクに適したメトリクスを見つけるためにはより多くの研究が必要である。
関連論文リスト
- DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning [7.036629164442979]
これらの課題に対処するためにDocTTTフレームワークを導入します。
このアプローチの主な革新は、テスト中に各特定の入力にモデルを適応させるために、テストタイムトレーニングを使用することです。
メタ学習と自己教師型マスクオートエンコーダ(MAE)を組み合わせたメタ補助学習手法を提案する。
論文 参考訳(メタデータ) (2025-01-22T14:18:47Z) - Statistical Uncertainty Quantification for Aggregate Performance Metrics in Machine Learning Benchmarks [0.0]
複数のタスクにまたがって集約されたメトリクスの不確かさを定量化するために,統計的手法がいかに用いられるかを示す。
これらの技術は、全体的なパフォーマンスが劣っているにもかかわらず、特定のタスクに対する特定のモデルの優位性のような洞察を浮き彫りにする。
論文 参考訳(メタデータ) (2025-01-08T02:17:34Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - A Novel Metric for Measuring Data Quality in Classification Applications
(extended version) [0.0]
データ品質を測定するための新しい指標を紹介し説明する。
この尺度は、分類性能とデータの劣化の相関した進化に基づいている。
各基準の解釈と評価レベルの例を提供する。
論文 参考訳(メタデータ) (2023-12-13T11:20:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Evaluating Pre-Trained Models for User Feedback Analysis in Software
Engineering: A Study on Classification of App-Reviews [2.66512000865131]
アプリレビュー分類のための事前学習型ニューラルネットワークモデル(PTM)の精度と時間効率について検討した。
複数の設定でPTMを評価するために,異なる研究をセットアップした。
いずれの場合も、MicroとMacro Precision、Recall、F1スコアが使用されます。
論文 参考訳(メタデータ) (2021-04-12T23:23:45Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。