論文の概要: Optimising Human-Machine Collaboration for Efficient High-Precision
Information Extraction from Text Documents
- arxiv url: http://arxiv.org/abs/2302.09324v1
- Date: Sat, 18 Feb 2023 13:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:13:17.606052
- Title: Optimising Human-Machine Collaboration for Efficient High-Precision
Information Extraction from Text Documents
- Title(参考訳): テキスト文書からの高精度情報抽出のためのヒューマンマシン協調の最適化
- Authors: Bradley Butcher, Miri Zilka, Darren Cook, Jiri Hron and Adrian Weller
- Abstract要約: 我々は、人間のみ、人間のみ、機械のみの情報抽出アプローチの利点と欠点を考察する。
弱スーパービジョンラベリングと人間の検証を用いた情報抽出のためのフレームワークとアタッチメントツールを提案する。
コンピュータの速度と人間の理解の組み合わせは、わずかな時間しか必要とせず、手動のアノテーションに匹敵する精度が得られる。
- 参考スコア(独自算出の注目度): 23.278525774427607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While humans can extract information from unstructured text with high
precision and recall, this is often too time-consuming to be practical.
Automated approaches, on the other hand, produce nearly-immediate results, but
may not be reliable enough for high-stakes applications where precision is
essential. In this work, we consider the benefits and drawbacks of various
human-only, human-machine, and machine-only information extraction approaches.
We argue for the utility of a human-in-the-loop approach in applications where
high precision is required, but purely manual extraction is infeasible. We
present a framework and an accompanying tool for information extraction using
weak-supervision labelling with human validation. We demonstrate our approach
on three criminal justice datasets. We find that the combination of computer
speed and human understanding yields precision comparable to manual annotation
while requiring only a fraction of time, and significantly outperforms fully
automated baselines in terms of precision.
- Abstract(参考訳): 人間は高精度で構造化されていないテキストから情報を抽出できるが、実際は時間がかかりすぎる。
一方、自動化されたアプローチは、ほぼ瞬時に結果を生成するが、精度が不可欠である高精度なアプリケーションには十分ではないかもしれない。
本研究では,人間専用,人間専用,機械専用の情報抽出手法の利点と欠点について考察する。
我々は,高精度な手作業による抽出が不可能なアプリケーションにおいて,ループ型アプローチの有用性を論じる。
弱スーパービジョンラベリングと人間の検証を用いた情報抽出のためのフレームワークと付属ツールを提案する。
3つの刑事司法データセットに対する我々のアプローチを実証する。
コンピュータの速度と人間の理解の組み合わせは、わずかな時間しか必要とせず、手動のアノテーションに匹敵する精度を示し、精度の点で完全に自動化されたベースラインを著しく上回っている。
関連論文リスト
- No Need to Sacrifice Data Quality for Quantity: Crowd-Informed Machine Annotation for Cost-Effective Understanding of Visual Data [2.8769762836804538]
結果の信頼性を犠牲にすることなく、大規模に視覚データの品質チェックを可能にするフレームワークを提案する。
これは、群衆の反応を予測するために訓練された畳み込みニューラルネットワークを用いて、高度に自動化することができる。
当社のアプローチを実世界の2つの挑戦的なオートマチックデータセットで実証し、我々のモデルがタスクのかなりの部分を完全に自動化できることを示します。
論文 参考訳(メタデータ) (2024-08-19T14:45:50Z) - Abstractive Text Summarization using Attentive GRU based Encoder-Decoder [4.339043862780233]
テキスト処理における機械学習の重要な応用として,自動テキスト要約が登場している。
本稿では,GRUベースのエンコーダとデコーダを用いて,英文要約器を構築した。
出力は文献の競争モデルより優れていることが観察される。
論文 参考訳(メタデータ) (2023-02-25T16:45:46Z) - Localized Shortcut Removal [4.511561231517167]
保持されたテストデータのハイパフォーマンスは、モデルを一般化したり、意味のあるものを学ぶことを必ずしも示さない。
これはしばしば、機械学習のショートカットの存在が原因である。
我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。
論文 参考訳(メタデータ) (2022-11-24T13:05:33Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Addressing Data Scarcity in Multimodal User State Recognition by
Combining Semi-Supervised and Supervised Learning [1.1688030627514532]
本稿では,人間とロボットの相互作用環境における解離・解離状態を検出するためのマルチモーダル機械学習手法を提案する。
我々は,少ないラベル付きデータと大きなラベル付きデータセットを用いて,デア/アグリメント検出のための平均F1スコア81.1%を達成する。
論文 参考訳(メタデータ) (2022-02-08T10:41:41Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Iterative Human and Automated Identification of Wildlife Images [25.579224100175434]
カメラのトラップは野生生物の監視にますます使われているが、この技術は通常、広範なデータアノテーションを必要とする。
提案された反復的人間および自動識別アプローチは、長尾分布を持つ野生動物の画像データから学習することができる。
提案手法は既存の手法の人間のアノテーションの20%しか使わず、90%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-05-05T20:51:30Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - SideInfNet: A Deep Neural Network for Semi-Automatic Semantic
Segmentation with Side Information [83.03179580646324]
本稿では,新たなディープニューラルネットワークアーキテクチャであるSideInfNetを提案する。
画像から学習した機能とユーザアノテーションから抽出したサイド情報を統合する。
提案手法を評価するために,提案したネットワークを3つのセマンティックセグメンテーションタスクに適用し,ベンチマークデータセットに対する広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-07T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。