論文の概要: Synthetic vs. Real Reference Strings for Citation Parsing, and the
Importance of Re-training and Out-Of-Sample Data for Meaningful Evaluations:
Experiments with GROBID, GIANT and Cora
- arxiv url: http://arxiv.org/abs/2004.10410v2
- Date: Sat, 25 Apr 2020 14:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:48:38.094277
- Title: Synthetic vs. Real Reference Strings for Citation Parsing, and the
Importance of Re-training and Out-Of-Sample Data for Meaningful Evaluations:
Experiments with GROBID, GIANT and Cora
- Title(参考訳): クエンテーションパーシングのための合成対実参照文字列と意味のある評価のための再学習と外サンプルデータの重要性:GROBID,GIANT,Colaを用いた実験
- Authors: Mark Grennan, Joeran Beel
- Abstract要約: 合成基準弦と有機基準弦の両方がグロビッドの訓練に等しく適していることを示す。
トレーニング中に可能な限り多くのラベル付きフィールドを持つことで、効果も向上する。
合成データは、学習(深部)引用解析モデルに適していると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Citation parsing, particularly with deep neural networks, suffers from a lack
of training data as available datasets typically contain only a few thousand
training instances. Manually labelling citation strings is very time-consuming,
hence synthetically created training data could be a solution. However, as of
now, it is unknown if synthetically created reference-strings are suitable to
train machine learning algorithms for citation parsing. To find out, we train
Grobid, which uses Conditional Random Fields, with a) human-labelled reference
strings from 'real' bibliographies and b) synthetically created reference
strings from the GIANT dataset. We find that both synthetic and organic
reference strings are equally suited for training Grobid (F1 = 0.74). We
additionally find that retraining Grobid has a notable impact on its
performance, for both synthetic and real data (+30% in F1). Having as many
types of labelled fields as possible during training also improves
effectiveness, even if these fields are not available in the evaluation data
(+13.5% F1). We conclude that synthetic data is suitable for training (deep)
citation parsing models. We further suggest that in future evaluations of
reference parsers both evaluation data similar and dissimilar to the training
data should be used for more meaningful evaluations.
- Abstract(参考訳): クエンテーション解析、特にディープニューラルネットワークでは、利用可能なデータセットは通常、数千のトレーニングインスタンスのみを含むため、トレーニングデータの不足に悩まされる。
手作業による引用文字列のラベリングは非常に時間を要するため、合成的に生成されたトレーニングデータが解決策になり得る。
しかし、現在、合成された参照文字列が引用解析のための機械学習アルゴリズムの訓練に適しているかどうかは不明である。
確認するために、条件付きランダムフィールドを使用するGrobidをトレーニングします。
a)「現実」の書誌学と人為的な参照文字列
b) GIANTデータセットから合成された参照文字列。
合成および有機参照文字列は共にグロビッドの訓練に等しく適している(f1 = 0.74)。
また、Grobidの再訓練は、合成データと実データの両方(F1では30%以上)のパフォーマンスに顕著な影響を与えている。
トレーニング中に可能な限り多くのラベル付きフィールドを持つことで、評価データ(+13.5% F1)でこれらのフィールドが利用できない場合でも、有効性が向上する。
合成データは(深い)引用解析モデルの訓練に適していると結論づける。
さらに,今後の参照パーサの評価において,学習データに類似した評価データと異質な評価データの両方を,より有意義な評価に使用するべきであることを示唆する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Analysis of Training Object Detection Models with Synthetic Data [0.0]
本稿では,オブジェクト検出に合成データを使用する方法の概要を概説する。
データ生成の側面とモデルをトレーニングするテクニックを分析します。
実験は実データ上で検証され、実データでトレーニングされたモデルにベンチマークされる。
論文 参考訳(メタデータ) (2022-11-29T10:21:16Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data [14.900342838726747]
合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-07-12T04:08:11Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z) - Towards Zero-Label Language Learning [20.28186484098947]
本稿では自然言語処理(NLP)におけるゼロラベル学習について検討する。
トレーニング中、どこにでも人間の注釈付きデータを使用しず、モデルが純粋に合成データに基づいて訓練される。
GPT-3における数発の推論の成功に触発されて、教師なしデータ生成というトレーニングデータ生成手順を提案する。
論文 参考訳(メタデータ) (2021-09-19T19:00:07Z) - What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels [53.51264148594141]
シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
strモデルのトレーニングは、実際のデータが不十分であるため、ほとんど不可能です。
実際のラベル付きデータだけでSTRモデルを十分にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-07T17:05:54Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。