論文の概要: More efficient manual review of automatically transcribed tabular data
- arxiv url: http://arxiv.org/abs/2306.16126v1
- Date: Wed, 28 Jun 2023 11:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:26:50.726625
- Title: More efficient manual review of automatically transcribed tabular data
- Title(参考訳): 自動転写表データのより効率的な手作業レビュー
- Authors: Bj{\o}rn-Richard Pedersen, Rigmor Katrine Johansen, Einar Holsb{\o},
Hilde Sommerseth, Lars Ailo Bongo
- Abstract要約: ノルウェーの1950年国勢調査(97%)の230万個の手書きの職業コードを書き起こすのに機械学習を使いました。
モデルの信頼性が最も低い90,000(3%)のコードを手作業でレビューしました。
9万のコードを人間のレビュアーに割り当て、アノテーションツールを使ってコードをレビューしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning methods have proven useful in transcribing historical data.
However, results from even highly accurate methods require manual verification
and correction. Such manual review can be time-consuming and expensive,
therefore the objective of this paper was to make it more efficient.
Previously, we used machine learning to transcribe 2.3 million handwritten
occupation codes from the Norwegian 1950 census with high accuracy (97%). We
manually reviewed the 90,000 (3%) codes with the lowest model confidence. We
allocated those 90,000 codes to human reviewers, who used our annotation tool
to review the codes. To assess reviewer agreement, some codes were assigned to
multiple reviewers. We then analyzed the review results to understand the
relationship between accuracy improvements and effort. Additionally, we
interviewed the reviewers to improve the workflow. The reviewers corrected
62.8% of the labels and agreed with the model label in 31.9% of cases. About
0.2% of the images could not be assigned a label, while for 5.1% the reviewers
were uncertain, or they assigned an invalid label. 9,000 images were
independently reviewed by multiple reviewers, resulting in an agreement of
86.43% and disagreement of 8.96%. We learned that our automatic transcription
is biased towards the most frequent codes, with a higher degree of
misclassification for the lowest frequency codes. Our interview findings show
that the reviewers did internal quality control and found our custom tool
well-suited. So, only one reviewer is needed, but they should report
uncertainty.
- Abstract(参考訳): 機械学習手法は、歴史的データの書き起こしに有用であることが証明されている。
しかし、精度の高い手法による結果には手動による検証と修正が必要である。
このような手作業によるレビューは, 時間と費用がかかるため, より効率的に行うことが目的である。
以前は、ノルウェーの1950年国勢調査(97%)から230万個の手書きの職業コードを書き起こすのに機械学習を使いました。
モデルの信頼性が最も低い90,000 (3%) のコードを手作業でレビューしました。
9万のコードを人間のレビュアーに割り当て、アノテーションツールを使ってコードをレビューしました。
レビューア合意を評価するために、いくつかのコードは複数のレビューアに割り当てられた。
そして、レビュー結果を分析して、精度の改善と努力の関係を理解する。
さらに、ワークフローを改善するためにレビュアーにインタビューしました。
レビュアーはラベルの62.8%を修正し、31.9%のケースでモデルラベルに同意した。
画像の約0.2%はラベルを割り当てられず、5.1%はレビュアーが不確実か、または無効なラベルを割り当てられた。
9000枚の画像は、複数のレビュアーによって独立にレビューされ、86.43%の合意と8.96%の不一致が得られた。
私たちの自動転写は、最も頻度の高いコードに対して偏りがあり、最も低い頻度のコードに対して高い誤分類があることが分かりました。
インタビューの結果,レビュアーは内部品質管理を行い,カスタムツールが適していることがわかった。
したがって、レビュアーは1人だけですが、不確実性を報告すべきです。
関連論文リスト
- Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword? [14.970843824847956]
私たちは、自動生成されたコードレビューのサポートなしで、異なるプログラムをレビューする29人の専門家による制御された実験を実行しました。
本研究は,LLMが自動認識する問題の大部分をレビュアが有効とみなし,自動化されたレビューを出発点として利用できることが,彼らの行動に強く影響していることを示す。
しかし、自動化されたレビューから始まったレビュアーは、完全な手作業のプロセスと比較して、より高重度な問題を特定できない一方で、より多くの低重度な問題を特定した。
論文 参考訳(メタデータ) (2024-11-18T09:24:01Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - An Empirical Study on Code Review Activity Prediction and Its Impact in Practice [7.189276599254809]
本稿では,提案パッチのどのファイルにコメントが必要か,(2)修正,(3)ホットスポットかを予測することで,コードレビュアを支援することを目的とする。
3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-04-16T16:20:02Z) - Code Review Automation: Strengths and Weaknesses of the State of the Art [14.313783664862923]
3つのコードレビュー自動化技術は、この論文で説明した2つのタスクで成功するか失敗する傾向があります。
この研究は質的な焦点が強く、正確な予測と間違った予測の分析に105時間のマニュアルインスペクションが費やされている。
論文 参考訳(メタデータ) (2024-01-10T13:00:18Z) - Improving Code Reviewer Recommendation: Accuracy, Latency, Workload, and
Bystanders [6.538051328482194]
当社は2018年のRevRecV1以降生産されているレコメンデータを構築しています。
私たちは、レビュアーがファイルの以前のオーサシップに基づいて割り当てられていることに気付きました。
レビューに責任を持つ個人を持つことは、レビューにかかる時間を11%削減する。
論文 参考訳(メタデータ) (2023-12-28T17:55:13Z) - Giving Feedback on Interactive Student Programs with Meta-Exploration [74.5597783609281]
ウェブサイトやゲームのようなインタラクティブなソフトウェアを開発することは、特にコンピュータ科学を学ぶための魅力的な方法である。
標準的アプローチでは、インストラクターは、学生が実装した対話型プログラムを手動で評価する必要がある。
Code.orgのような何百万ものオンラインプラットフォームは、インタラクティブなプログラムを実装するための代入に関するフィードバックを提供することができない。
論文 参考訳(メタデータ) (2022-11-16T10:00:23Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - ReviewRobot: Explainable Paper Review Generation based on Knowledge
Synthesis [62.76038841302741]
レビュースコアを自動的に割り当てて,新規性や意味のある比較など,複数のカテゴリのコメントを書くための,新しいReviewRobotを構築した。
実験の結果,レビュースコア予測器の精度は71.4%-100%であった。
ドメインの専門家による人間による評価は、ReviewRobotが生成したコメントの41.7%-70.5%が有効で建設的であり、その20%は人間が書いたものよりも優れていることを示している。
論文 参考訳(メタデータ) (2020-10-13T02:17:58Z) - ScoreGAN: A Fraud Review Detector based on Multi Task Learning of
Regulated GAN with Data Augmentation [50.779498955162644]
生成・検出プロセスにおけるレビューテキストとレビューレーティングスコアの両方を利用した不正レビュー検出のためのScoreGANを提案する。
その結果,提案フレームワークは,既存の最先端フレームワークであるFakeGANをAPの7%,YelpとTripAdvisorのデータセットで5%上回る性能を示した。
論文 参考訳(メタデータ) (2020-06-11T16:15:06Z) - Detecting Problem Statements in Peer Assessments [12.993637157790143]
18,000件以上のレビューコメントは、レビュー担当者によって、作業上の問題を検出するか、検出しないかのどちらかとしてラベル付けされたものです。
従来の機械学習モデルや、GloVeとBERTの埋め込みを使ったニューラルネットワークモデルも展開しています。
論文 参考訳(メタデータ) (2020-05-30T03:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。