論文の概要: FREDA: Flexible Relation Extraction Data Annotation
- arxiv url: http://arxiv.org/abs/2204.07150v1
- Date: Thu, 14 Apr 2022 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:34:56.328827
- Title: FREDA: Flexible Relation Extraction Data Annotation
- Title(参考訳): FREDA:フレキシブルな関係抽出データアノテーション
- Authors: Michael Strobl, Amine Trabelsi, Osmar Zaiane
- Abstract要約: 本稿では,関係抽出作業のための高品質なデータセットを高速に作成する手法を提案する。
本研究は,19関係の10,022文を妥当な時間でアノテートすることができた。
- 参考スコア(独自算出の注目度): 1.3750624267664153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To effectively train accurate Relation Extraction models, sufficient and
properly labeled data is required. Adequately labeled data is difficult to
obtain and annotating such data is a tricky undertaking. Previous works have
shown that either accuracy has to be sacrificed or the task is extremely
time-consuming, if done accurately. We are proposing an approach in order to
produce high-quality datasets for the task of Relation Extraction quickly.
Neural models, trained to do Relation Extraction on the created datasets,
achieve very good results and generalize well to other datasets. In our study,
we were able to annotate 10,022 sentences for 19 relations in a reasonable
amount of time, and trained a commonly used baseline model for each relation.
- Abstract(参考訳): 正確な関係抽出モデルを効果的に訓練するためには、十分なラベル付きデータが必要である。
適切なラベル付けされたデータは入手が困難であり、そのようなデータの注釈付けは難しい作業である。
以前の研究では、正確さを犠牲にするか、タスクが正確であれば非常に時間がかかることが示されている。
我々は,関係抽出のための高品質なデータセットを迅速に作成するための手法を提案する。
生成したデータセットでリレーショナル抽出を行うように訓練されたニューラルモデルは、非常によい結果を得て、他のデータセットによく適応する。
本研究では,19の関係に対して10,022の文を適度な時間にアノテートし,各関係について一般的なベースラインモデルを訓練した。
関連論文リスト
- Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Certain and Approximately Certain Models for Statistical Learning [4.318959672085627]
特定のトレーニングデータや対象モデルに対して,不足値を持つデータから,正確なモデルを直接学習することが可能であることを示す。
我々は、理論的に保証された効率的なアルゴリズムを構築し、この必要条件を確認し、計算が不要な場合に正確なモデルを返す。
論文 参考訳(メタデータ) (2024-02-27T22:49:33Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Improving Sentence-Level Relation Extraction through Curriculum Learning [7.117139527865022]
本稿では,学習の難易度でデータを分割し,学習に活用するカリキュラムベースの関係抽出モデルを提案する。
代表文レベルの関係抽出データセットであるTACREDとRe-TACREDを用いた実験では,提案手法は良好な性能を示した。
論文 参考訳(メタデータ) (2021-07-20T08:44:40Z) - Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。
実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文 参考訳(メタデータ) (2021-04-10T12:22:25Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web [4.702325864333419]
WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-18T23:56:12Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。