論文の概要: Unsupervised Term Extraction for Highly Technical Domains
- arxiv url: http://arxiv.org/abs/2210.13118v1
- Date: Mon, 24 Oct 2022 11:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:01:25.838623
- Title: Unsupervised Term Extraction for Highly Technical Domains
- Title(参考訳): 高度技術ドメインのための教師なし用語抽出
- Authors: Francesco Fusco, Peter Staar, Diego Antognini
- Abstract要約: 本稿では,医薬,医薬,物質科学などの高度技術分野を対象とする知識発見プラットフォームの抽出サブシステムについて述べる。
ドメインをまたいだ一般化を実現するために、完全に教師なしアノテーション(UA)を導入する。
このアノテータは、大きなラベルのないコーパス上でUAを実行することによって生成されたトレーニングデータに対して、トランスフォーマーモデルを微調整(または事前訓練)する弱い教師付きセットアップを実装するために使用される。
- 参考スコア(独自算出の注目度): 7.848905441355084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Term extraction is an information extraction task at the root of knowledge
discovery platforms. Developing term extractors that are able to generalize
across very diverse and potentially highly technical domains is challenging, as
annotations for domains requiring in-depth expertise are scarce and expensive
to obtain. In this paper, we describe the term extraction subsystem of a
commercial knowledge discovery platform that targets highly technical fields
such as pharma, medical, and material science. To be able to generalize across
domains, we introduce a fully unsupervised annotator (UA). It extracts terms by
combining novel morphological signals from sub-word tokenization with
term-to-topic and intra-term similarity metrics, computed using general-domain
pre-trained sentence-encoders. The annotator is used to implement a
weakly-supervised setup, where transformer-models are fine-tuned (or
pre-trained) over the training data generated by running the UA over large
unlabeled corpora. Our experiments demonstrate that our setup can improve the
predictive performance while decreasing the inference latency on both CPUs and
GPUs. Our annotators provide a very competitive baseline for all the cases
where annotations are not available.
- Abstract(参考訳): 用語抽出は、知識発見プラットフォームの根元にある情報抽出タスクである。
高度な専門知識を必要とするドメインに対するアノテーションは乏しく、入手する費用もかかるため、非常に多様で高い技術領域をまたいで一般化できる用語抽出器の開発は困難である。
本稿では,医薬,医薬,物質科学などの高度技術分野を対象とする,商業的知識発見プラットフォームの抽出サブシステムについて述べる。
ドメインをまたいだ一般化を実現するために、完全に教師なしアノテーション(UA)を導入する。
サブワードトークン化の新たな形態信号と、一般ドメイン事前訓練文エンコーダを用いて計算された用語間類似度指標を組み合わせることで、用語を抽出する。
このアノテータは、大きなラベルのないコーパス上でUAを実行することによって生成されたトレーニングデータに対して、トランスフォーマーモデルを微調整(または事前訓練)する弱い教師付きセットアップを実装するために使用される。
実験により,CPUとGPUの両方の推論遅延を低減しつつ,予測性能を向上できることが実証された。
私たちのアノテーションは、アノテーションが利用できないすべてのケースに対して、非常に競争力のあるベースラインを提供します。
関連論文リスト
- Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Adapting to Distribution Shift by Visual Domain Prompt Generation [34.19066857066073]
いくつかのラベルのないデータを使って、テスト時にモデルを適応し、分散シフトに対処する。
ソースドメインから移行可能な知識を学ぶための知識銀行を構築します。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2024-05-05T02:44:04Z) - DiPrompT: Disentangled Prompt Tuning for Multiple Latent Domain
Generalization in Federated Learning [20.51179258856028]
フェデレートラーニング(FL)は、分散データから学ぶための強力なパラダイムとして登場した。
既存のFLメソッドの多くは、トレーニング中にドメインラベルが提供されると仮定し、その評価はドメインの数に明確な制約を課している。
本稿では,ドメイン一般化のための適応的なプロンプトを分散的に学習することで,上記の制約に対処するDistangled Prompt Tuning(DiPrompT)を提案する。
論文 参考訳(メタデータ) (2024-03-11T15:58:15Z) - Extracting Text Representations for Terms and Phrases in Technical
Domains [9.27244202193623]
そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。
このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
論文 参考訳(メタデータ) (2023-05-25T08:59:36Z) - Prior Knowledge Guided Unsupervised Domain Adaptation [82.9977759320565]
本稿では,対象とするクラス分布に関する事前知識を利用できる知識誘導型非教師付きドメイン適応(KUDA)設定を提案する。
特に,対象領域におけるクラス分布に関する2種類の事前知識について考察する。
このような事前知識を用いて生成した擬似ラベルを精査する修正モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T18:41:36Z) - Leveraging Expert Guided Adversarial Augmentation For Improving
Generalization in Named Entity Recognition [50.85774164546487]
名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では性能が良くない。
本稿では、専門家誘導型を利用してエンティティトークンとその周辺状況を変更することにより、そのエンティティタイプを敵攻撃として変更することを提案する。
その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。
論文 参考訳(メタデータ) (2022-03-21T01:21:12Z) - Classification of Consumer Belief Statements From Social Media [0.0]
複雑な専門家アノテーションがいかにして分類に有効に活用できるかを考察する。
自動クラス抽象化アプローチは、テキスト分類タスクのドメインエキスパートベースラインに対して極めてよく機能することがわかった。
論文 参考訳(メタデータ) (2021-06-29T15:25:33Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Knowledge Graph Anchored Information-Extraction for Domain-Specific
Insights [1.6308268213252761]
新しいドメイン内で特定の情報ニーズを満たすためにタスクベースのアプローチを使用します。
美術NLP技術の状態を構成したパイプラインを使用して、インスタンスレベルのセマンティック構造を自動的に抽出する。
論文 参考訳(メタデータ) (2021-04-18T19:28:10Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。