論文の概要: Procode: the Swiss Multilingual Solution for Automatic Coding and
Recoding of Occupations and Economic Activities
- arxiv url: http://arxiv.org/abs/2012.07521v1
- Date: Mon, 30 Nov 2020 07:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:51:51.861031
- Title: Procode: the Swiss Multilingual Solution for Automatic Coding and
Recoding of Occupations and Economic Activities
- Title(参考訳): procode: スイスの職業と経済活動の自動コーディングと再コーディングのための多言語ソリューション
- Authors: Nenad Savic, Nicolas Bovio, Fabian Gilbert and Irina Guseva Canu
- Abstract要約: 疫学的研究は、職業または経済活動のために確立された分類と整合したデータを必要とする。
目的は、分類に対する自由テキストのコーディングと異なる分類間の再コーディングのための、Procodeという名前のWebツールを開発し、テストすることであった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective. Epidemiological studies require data that are in alignment with
the classifications established for occupations or economic activities. The
classifications usually include hundreds of codes and titles. Manual coding of
raw data may result in misclassification and be time consuming. The goal was to
develop and test a web-tool, named Procode, for coding of free-texts against
classifications and recoding between different classifications. Methods. Three
text classifiers, i.e. Complement Naive Bayes (CNB), Support Vector Machine
(SVM) and Random Forest Classifier (RFC), were investigated using a k-fold
cross-validation. 30 000 free-texts with manually assigned classification codes
of French classification of occupations (PCS) and French classification of
activities (NAF) were available. For recoding, Procode integrated a workflow
that converts codes of one classification to another according to existing
crosswalks. Since this is a straightforward operation, only the recoding time
was measured. Results. Among the three investigated text classifiers, CNB
resulted in the best performance, where the classifier predicted accurately
57-81% and 63-83% classification codes for PCS and NAF, respectively. SVM lead
to somewhat lower results (by 1-2%), while RFC coded accurately up to 30% of
the data. The coding operation required one minute per 10 000 records, while
the recoding was faster, i.e. 5-10 seconds. Conclusion. The algorithm
integrated in Procode showed satisfactory performance, since the tool had to
assign the right code by choosing between 500-700 different choices. Based on
the results, the authors decided to implement CNB in Procode. In future, if
another classifier shows a superior performance, an update will include the
required modifications.
- Abstract(参考訳): 目的。
疫学的研究は、職業または経済活動のために確立された分類と一致したデータを必要とする。
分類は通常、数百のコードとタイトルを含んでいる。
生データの手作業によるコーディングは、誤った分類と時間の消費をもたらす可能性がある。
目的は、分類に対する自由テキストのコーディングと異なる分類間の再コーディングのための、Procodeという名前のWebツールの開発とテストであった。
方法。
3つのテキスト分類器、すなわち
CNB (Complement Naive Bayes) とSVM (Support Vector Machine) とRFC (Random Forest Classifier) を k-fold クロスバリデーションを用いて検討した。
フランスの職業分類(PCS)とフランスの職業分類(NAF)を手動で指定した30000のフリーテキストが利用可能であった。
再コーディングのために、Procodeは、既存の横断歩道に従って、ある分類のコードを別の分類に変換するワークフローを統合した。
これは簡単な操作であるため、復号時間のみが測定された。
結果。
3つのテキスト分類器のうち、cnbは最良の性能を示し、分類器はpcsとnafの57-81%と63-83%の分類符号を正確に予測した。
SVMはやや低い結果(1-2%)をもたらし、RFCはデータの30%まで正確にコーディングした。
コーディング操作は10000レコードにつき1分間必要であり、再コーディングはより高速であった。
5-10秒
結論。
Procodeに統合されたアルゴリズムは、500から700の異なる選択を選択して適切なコードを割り当てる必要があったため、良好なパフォーマンスを示した。
結果に基づき、著者らはCNBをProcodeに実装することを決定した。
将来的には、他の分類器が優れたパフォーマンスを示す場合、更新には必要な修正が含まれる。
関連論文リスト
- Blueprinting the Future: Automatic Item Categorization using
Hierarchical Zero-Shot and Few-Shot Classifiers [6.907552533477328]
本研究では,ゼロショットおよび少数ショット生成事前学習変換器(GPT)を用いた階層的項目分類手法を提案する。
検査ブループリントの階層的な性質はシームレスにナビゲートされ、複数のレベルの項目を階層的に分類することができる。
人工データによる初期シミュレーションは、この方法の有効性を示し、F1スコアで測定された平均精度92.91%を達成する。
論文 参考訳(メタデータ) (2023-12-06T15:51:49Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - A Systematic Literature Review of Automated ICD Coding and
Classification Systems using Discharge Summaries [5.156484100374058]
フリーテキスト臨床物語の体系化は、資金、保険請求処理、研究などの二次的用途に有用であると長年認識されてきた。
コードの割り当ての現在のシナリオは、非常にコストがかかり、時間がかかり、エラーが発生しやすい手作業のプロセスです。
この体系的な文献レビューは、自動化された臨床コーディングシステムの包括的概要を提供する。
論文 参考訳(メタデータ) (2021-07-12T03:55:17Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z) - Searching towards Class-Aware Generators for Conditional Generative
Adversarial Networks [132.29772160843825]
条件付き生成逆数ネットワーク(cGAN)は,その条件に基づいて画像を生成するように設計されている。
既存のメソッドは、すべてのクラスで同じ生成アーキテクチャを使っている。
本稿では,各クラスごとに異なるアーキテクチャを見つけるためにNASを採用する新しいアイデアを提案する。
論文 参考訳(メタデータ) (2020-06-25T07:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。