論文の概要: A Library Perspective on Nearly-Unsupervised Information Extraction
Workflows in Digital Libraries
- arxiv url: http://arxiv.org/abs/2205.00716v1
- Date: Mon, 2 May 2022 08:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 22:21:47.833029
- Title: A Library Perspective on Nearly-Unsupervised Information Extraction
Workflows in Digital Libraries
- Title(参考訳): デジタル図書館における教師なし情報抽出ワークフローに関する図書館の視点
- Authors: Hermann Kroll and Jan Pirklbauer and Florian Pl\"otzky and Wolf-Tilo
Balke
- Abstract要約: 情報抽出は、デジタルライブラリの新規かつ効果的なアクセスパスをサポートすることができる。
本稿では,デジタルライブラリがこのような抽出をどのように扱えるのか,その品質が実際に十分なのか,という問題に対処する。
我々は、百科事典(Wikipedia)、薬局、政治学の各分野のケーススタディで分析し、教師なし抽出に焦点を当てた。
- 参考スコア(独自算出の注目度): 0.5505634045241288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information extraction can support novel and effective access paths for
digital libraries. Nevertheless, designing reliable extraction workflows can be
cost-intensive in practice. On the one hand, suitable extraction methods rely
on domain-specific training data. On the other hand, unsupervised and open
extraction methods usually produce not-canonicalized extraction results. This
paper tackles the question how digital libraries can handle such extractions
and if their quality is sufficient in practice. We focus on unsupervised
extraction workflows by analyzing them in case studies in the domains of
encyclopedias (Wikipedia), pharmacy and political sciences. We report on
opportunities and limitations. Finally we discuss best practices for
unsupervised extraction workflows.
- Abstract(参考訳): 情報抽出は、デジタルライブラリの新規かつ効果的なアクセスパスをサポートすることができる。
それでも、信頼できる抽出ワークフローの設計は、実際にコストがかかる可能性がある。
一方、適切な抽出方法は、ドメイン固有のトレーニングデータに依存する。
一方,教師なしかつオープンな抽出方法は,通常,非カノニカル化抽出結果を生成する。
本稿では,デジタルライブラリがこのような抽出をどのように扱えるのか,その品質が実際に十分なのか,という問題に取り組む。
我々は、百科事典(wikipedia)、薬学、政治科学の分野におけるケーススタディで分析し、教師なしの抽出ワークフローにフォーカスする。
機会と限界を報告します
最後に,教師なし抽出ワークフローのベストプラクティスについて論じる。
関連論文リスト
- A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - Information Extraction from Historical Well Records Using A Large Language Model [0.1906498126334485]
石油とガスの井戸を最初に見つけてプラグで繋ぐことが不可欠である。
歴史資料はいくつかあるが、しばしば非構造化され、掃除されず、時代遅れである。
本稿では,これらの井戸の高速かつ低コストな位置推定のための新しい計算手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T21:59:11Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Improving Multi-Document Summarization through Referenced Flexible
Extraction with Credit-Awareness [21.037841262371355]
MDS(Multi-Document Summarization)における注目すべき課題は、入力の非常に長い長さである。
本稿では,この問題を克服するための抽出・抽出・吸収変換器フレームワークを提案する。
擬似抽出オラクルにない文の不等式の重要性をモデルに認識させる損失重み付け機構を提案する。
論文 参考訳(メタデータ) (2022-05-04T04:40:39Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。