論文の概要: Sem4SAP: Synonymous Expression Mining From Open Knowledge Graph For
Language Model Synonym-Aware Pretraining
- arxiv url: http://arxiv.org/abs/2303.14425v1
- Date: Sat, 25 Mar 2023 10:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:54:12.727538
- Title: Sem4SAP: Synonymous Expression Mining From Open Knowledge Graph For
Language Model Synonym-Aware Pretraining
- Title(参考訳): Sem4SAP: 言語モデルの同期対応事前学習のためのオープン知識グラフから匿名表現マイニング
- Authors: Zhouhong Gu, Sihang Jiang, Wenhao Huang, Jiaqing Liang, Hongwei Feng,
Yanghua Xiao
- Abstract要約: 多くのプレトレーニング言語モデル (PLM) は、小規模なシンセセットの制限と PLM の事前トレーニング目的のために、同義的な知識を欠いている。
オープンナレッジグラフ(Open-KG)からシンセセットをマイニングし、マイニングしたシンセセットを用いて、言語モデルに対する同義語対応事前学習を行うためのSem4SAPというフレームワークを提案する。
また,PLMに同義語知識を注入する2つの新しい,効果的な同義語事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 17.68675964560931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The model's ability to understand synonymous expression is crucial in many
kinds of downstream tasks. It will make the model to better understand the
similarity between context, and more robust to the synonym substitution attack.
However, many Pretrained Language Model (PLM) lack synonym knowledge due to
limitation of small-scale synsets and PLM's pretraining objectives. In this
paper, we propose a framework called Sem4SAP to mine synsets from Open
Knowledge Graph (Open-KG) and using the mined synsets to do synonym-aware
pretraining for language models. We propose to coarsly filter the content in
Open-KG and use the frequency information to better help the clustering process
under low-resource unsupervised conditions. We expand the mined synsets by
migrating core semantics between synonymous expressions.We also propose two
novel and effective synonym-aware pre-training methods for injecting synonym
knowledge into PLMs.Extensive experiments demonstrate that Sem4SAP can
dramatically outperform the original PLMs and other baselines on ten different
tasks.
- Abstract(参考訳): モデルが同義表現を理解する能力は多くの下流タスクにおいて重要である。
これにより、コンテキスト間の類似性をよりよく理解し、同義語置換攻撃に対してより堅牢になる。
しかし、多くの事前学習言語モデル(plm)は、小規模のシンセクタとplmの事前学習目的の制限のために同義語知識を欠いている。
本稿では,オープンナレッジグラフ(open-kg)からシンセットをマイニングし,マイニングしたシンセットを用いて言語モデルのシノニムアウェア事前学習を行うsem4sapというフレームワークを提案する。
我々は、Open-KGのコンテンツを粗大にフィルタリングし、その周波数情報を用いて、低リソースの教師なし条件下でのクラスタリングプロセスを支援することを提案する。
また,同義語知識をplmに注入する2つの新しい,効果的な同義語認識事前学習法を提案し,sem4sapが,元のplmや他のベースラインを10個の異なるタスクで劇的に上回ることを示した。
関連論文リスト
- Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - LLM-TAKE: Theme Aware Keyword Extraction Using Large Language Models [10.640773460677542]
項目のテキストメタデータから推測される項目のキーワードを生成するために,Large Language Models (LLMs) を用いて検討する。
我々のモデリングフレームワークは、非情報的またはセンシティブなキーワードを出力することを避けて結果を微粒化するいくつかの段階を含む。
本稿では,Eコマース環境における商品の抽出的および抽象的テーマを生成するための2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-01T20:13:08Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Embracing Ambiguity: Improving Similarity-oriented Tasks with Contextual
Synonym Knowledge [30.010315144903885]
文脈同義語知識は類似性指向のタスクに不可欠である。
ほとんどのプレトレーニング言語モデル(PLM)は、トレーニング前の目的に固有の制限があるため、同義的な知識を欠いている。
PICSOは、複数のドメインからPLMへの文脈的同義語知識の注入を支援するフレキシブルなフレームワークである。
論文 参考訳(メタデータ) (2022-11-20T15:25:19Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Syntactic and Semantic-driven Learning for Open Information Extraction [42.65591370263333]
正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。
そこで本研究では,人間に反するデータを使わずにオープンなIEモデルを学習するシンタクティクスとセマンティック駆動型学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T02:59:40Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - SynSetExpan: An Iterative Framework for Joint Entity Set Expansion and
Synonym Discovery [66.24624547470175]
SynSetExpanは2つのタスクを相互に拡張できる新しいフレームワークである。
クラウドソーシングによる最初の大規模Synonym-Enhanced Set Expansionデータセットを作成する。
SE2データセットと以前のベンチマークの実験では、エンティティセットの拡張と同義語発見タスクの両方においてSynSetExpanの有効性が示されている。
論文 参考訳(メタデータ) (2020-09-29T07:32:17Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。