論文の概要: Constructing Taxonomies from Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2010.12813v2
- Date: Sun, 18 Apr 2021 02:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:03:11.806265
- Title: Constructing Taxonomies from Pretrained Language Models
- Title(参考訳): 事前学習言語モデルを用いた分類学の構築
- Authors: Catherine Chen, Kevin Lin, Dan Klein
- Abstract要約: 本稿では,事前学習した言語モデルを用いて分類木(WordNetなど)を構築する手法を提案する。
我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。
我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
- 参考スコア(独自算出の注目度): 52.53846972667636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for constructing taxonomic trees (e.g., WordNet) using
pretrained language models. Our approach is composed of two modules, one that
predicts parenthood relations and another that reconciles those predictions
into trees. The parenthood prediction module produces likelihood scores for
each potential parent-child pair, creating a graph of parent-child relation
scores. The tree reconciliation module treats the task as a graph optimization
problem and outputs the maximum spanning tree of this graph. We train our model
on subtrees sampled from WordNet, and test on non-overlapping WordNet subtrees.
We show that incorporating web-retrieved glosses can further improve
performance. On the task of constructing subtrees of English WordNet, the model
achieves 66.7 ancestor F1, a 20.0% relative increase over the previous best
published result on this task. In addition, we convert the original English
dataset into nine other languages using Open Multilingual WordNet and extend
our results across these languages.
- Abstract(参考訳): 本稿では,事前学習した言語モデルを用いて分類木(例えばwordnet)を構築する手法を提案する。
我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。
親和予測モジュールは、潜在的な親子ペアごとに確率スコアを生成し、親子関係スコアのグラフを作成する。
tree reconciliationモジュールは、タスクをグラフ最適化問題として扱い、このグラフの最大スパンディングツリーを出力する。
我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
ウェブ検索用グルースを組み込むことにより、さらなる性能向上が期待できる。
英語のWordNetのサブツリーを構築するタスクにおいて、このモデルは66.7の祖先F1を達成する。
さらに、Open Multilingual WordNetを用いて、元の英語データセットを9つの他の言語に変換し、その結果をこれらの言語に拡張する。
関連論文リスト
- Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Multilingual Syntax-aware Language Modeling through Dependency Tree
Conversion [12.758523394180695]
本研究では,9つの変換法と5つの言語にまたがるニューラル言語モデル(LM)の性能への影響について検討する。
平均して、私たちの最高のモデルのパフォーマンスは、すべての言語で最悪の選択に対して、19パーセントの精度向上を示しています。
我々の実験は、正しい木形式を選ぶことの重要性を強調し、情報的な決定を下すための洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T03:56:28Z) - TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage
Generic- to Individual-Language Finetuning [18.71574180551552]
IWPT 2021共有タスクへのコントリビューションについて述べる。
我々のメインシステムコンポーネントはハイブリッドツリーグラフであり、スプレッドツリーに存在しないグラフエッジを付加した拡張グラフに対して、スプレッドツリーの予測を統合する。
論文 参考訳(メタデータ) (2021-07-14T18:00:08Z) - Second-Order Unsupervised Neural Dependency Parsing [52.331561380948564]
ほとんどの教師なし依存は、親子情報のみを考慮した一階確率的生成モデルに基づいている。
親子や兄弟姉妹の情報を組み込んだ教師なし神経依存モデルの2階拡張を提案する。
我々のジョイントモデルは、完全なWSJテストセットにおける前の最先端技術よりも10%改善します。
論文 参考訳(メタデータ) (2020-10-28T03:01:33Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。