論文の概要: Multi-Source (Pre-)Training for Cross-Domain Measurement, Unit and
Context Extraction
- arxiv url: http://arxiv.org/abs/2308.02951v1
- Date: Sat, 5 Aug 2023 20:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:38:36.955918
- Title: Multi-Source (Pre-)Training for Cross-Domain Measurement, Unit and
Context Extraction
- Title(参考訳): クロスドメイン計測・単位・コンテキスト抽出のためのマルチソース(事前)トレーニング
- Authors: Yueling Li, Sebastian Martschat, Simone Paolo Ponzetto
- Abstract要約: 本稿では,事前学習言語モデルに基づく自動計測と文脈抽出のためのクロスドメイン手法を提案する。
マルチソース・マルチドメイン・コーパスを構築し,エンドツーエンド抽出パイプラインを訓練する。
結果から,マルチソーストレーニングが最高の結果をもたらすのに対して,シングルソーストレーニングは各ドメインに対して最高の結果をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 15.177664715250046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a cross-domain approach for automated measurement and context
extraction based on pre-trained language models. We construct a multi-source,
multi-domain corpus and train an end-to-end extraction pipeline. We then apply
multi-source task-adaptive pre-training and fine-tuning to benchmark the
cross-domain generalization capability of our model. Further, we conceptualize
and apply a task-specific error analysis and derive insights for future work.
Our results suggest that multi-source training leads to the best overall
results, while single-source training yields the best results for the
respective individual domain. While our setup is successful at extracting
quantity values and units, more research is needed to improve the extraction of
contextual entities. We make the cross-domain corpus used in this work
available online.
- Abstract(参考訳): 本稿では,事前学習言語モデルに基づく自動計測と文脈抽出のためのクロスドメイン手法を提案する。
マルチソース,マルチドメインコーパスを構築し,エンドツーエンドの抽出パイプラインをトレーニングする。
次に、マルチソースタスク適応型事前学習と微調整を適用し、モデルのクロスドメイン一般化能力をベンチマークする。
さらに,タスク固有のエラー解析の概念化と応用を行い,今後の課題に対する洞察を導出する。
結果から,マルチソーストレーニングが最高の結果をもたらすのに対して,シングルソーストレーニングは各ドメインに対して最高の結果をもたらすことが示唆された。
セットアップは量値や単位の抽出に成功しているが、文脈的実体の抽出を改善するためにはさらなる研究が必要である。
この作業で使用されるクロスドメインコーパスをオンラインで提供します。
関連論文リスト
- Investigating the potential of Sparse Mixtures-of-Experts for multi-domain neural machine translation [59.41178047749177]
トレーニング中に見られるさまざまなドメインのデータを扱うことができ、トレーニング中に見つからないドメインに対して堅牢な効率的なモデルを開発することを目的として、マルチドメインニューラルネットワーク翻訳に重点を置いている。
SMOE(Sparse Mixture-of-Experts)モデルは、効率的なモデルスケーリングを可能にするため、このタスクに適していると仮定する。
マルチドメインシナリオにおけるSMoEの有用性を検証するための一連の実験を行い、Transformerの簡単な幅スケーリングは、実際はよりシンプルで驚くほど効率的なアプローチであり、SMoEと同等の性能レベルに達することを発見した。
論文 参考訳(メタデータ) (2024-07-01T09:45:22Z) - Scalarization for Multi-Task and Multi-Domain Learning at Scale [15.545810422759295]
複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースからの情報を統一されたバックボーンに圧縮することができる。
しかし、これらのネットワークの最適化は、異なるタスクやドメイン間の相違による課題である。
論文 参考訳(メタデータ) (2023-10-13T07:31:04Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization [55.06956781674986]
我々は、各ソースドメインにいくつかのラベル情報がある半教師付きドメイン一般化タスクの解決に頼っている。
我々は、MultiMatchを提案し、FixMatchをマルチタスク学習フレームワークに拡張し、SSDGのための高品質な擬似ラベルを生成する。
提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T14:44:33Z) - Incremental Learning Meets Transfer Learning: Application to Multi-site
Prostate MRI Segmentation [16.50535949349874]
インクリメンタルトランスファー学習(ITL)と呼ばれる新しいマルチサイトセグメンテーションフレームワークを提案する。
ITLは、エンドツーエンドのシーケンシャルな方法で、マルチサイトデータセットからモデルを学習する。
ITLトレーニングスキームを活用することで、漸進的な学習における破滅的な問題を軽減できることを示す。
論文 参考訳(メタデータ) (2022-06-03T02:32:01Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Universal Representation Learning from Multiple Domains for Few-shot
Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。
より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文 参考訳(メタデータ) (2021-03-25T13:49:12Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。