論文の概要: Treebank Embedding Vectors for Out-of-domain Dependency Parsing
- arxiv url: http://arxiv.org/abs/2005.00800v1
- Date: Sat, 2 May 2020 11:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:34:28.667361
- Title: Treebank Embedding Vectors for Out-of-domain Dependency Parsing
- Title(参考訳): ドメイン外依存性解析のためのtreebank組み込みベクター
- Authors: Joachim Wagner, James Barry and Jennifer Foster
- Abstract要約: ツリーバンク埋め込みベクタは、特定の言語に対するすべてのツリーバンクをトレーニングデータとして使用すると同時に、モデルが1つのツリーバンクからのトレーニングデータを他のものよりも好むことを可能にする。
この考え方は,(1)訓練で使用する木バンクから来ない文に対して木バンクベクトルを予測する手法を導入すること,(2)テスト中に埋もれた木バンクベクトルから離れて移動するときに何が起こるのかを探索することによる。
- 参考スコア(独自算出の注目度): 12.226699055857182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent advance in monolingual dependency parsing is the idea of a treebank
embedding vector, which allows all treebanks for a particular language to be
used as training data while at the same time allowing the model to prefer
training data from one treebank over others and to select the preferred
treebank at test time. We build on this idea by 1) introducing a method to
predict a treebank vector for sentences that do not come from a treebank used
in training, and 2) exploring what happens when we move away from predefined
treebank embedding vectors during test time and instead devise tailored
interpolations. We show that 1) there are interpolated vectors that are
superior to the predefined ones, and 2) treebank vectors can be predicted with
sufficient accuracy, for nine out of ten test languages, to match the
performance of an oracle approach that knows the most suitable predefined
treebank embedding for the test set.
- Abstract(参考訳): 最近のモノリンガル依存解析の進歩は、木バンク埋め込みベクターのアイデアであり、これは特定の言語に対するすべての木バンクをトレーニングデータとして使用できると同時に、モデルが他の木バンクからトレーニングデータを選択し、テスト時に好まれる木バンクを選択することを可能にする。
私たちはこの考えに基づいています
1 訓練に使用する木銀行から出ない文に対して、木銀行ベクトルを予測する方法の導入、
2) テスト時間中に事前定義されたツリーバンク埋め込みベクターから離れ、代わりに調整された補間を考案するとどうなるかを探る。
私たちはそれを示します
1) 予め定義されたベクトルよりも優れた補間ベクトルが存在する。
2) treebankのベクターは、10つのテスト言語のうち9つで十分な精度で予測でき、テストセットに最も適した事前定義されたtreebank埋め込みを知っているoracleのアプローチのパフォーマンスに合致する。
関連論文リスト
- Latin Treebanks in Review: An Evaluation of Morphological Tagging Across Time [4.007209728400268]
我々は、既存のラテンツリーバンクをレビューし、それらが引き起こしたテキストを識別し、それらの重複を識別し、時間とジャンルにわたってそれらのカバレッジを文書化する。
我々は,POSと形態的特徴タグ付けのクロスタイム解析を行うために,既存の木バンクから抽出した新しい時間分割データを構築した。
論文 参考訳(メタデータ) (2024-08-13T06:55:54Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - The Fragility of Multi-Treebank Parsing Evaluation [10.355938901584567]
本稿では,木バンクの1つのサブセットを評価することで,弱い結論を導き出す方法について検討する。
優れた木バンク選択のためのガイドラインを確立することは難しいが、潜在的に有害な戦略を検出することは可能である。
論文 参考訳(メタデータ) (2022-09-14T15:07:29Z) - Unsupervised and Few-shot Parsing from Pretrained Language Models [56.33247845224995]
本研究では,事前学習言語モデルで学習した自己注意重み行列に基づいて,アウトアソシエーションスコアを算出した教師なし構成的パーシングモデルを提案する。
教師なしモデルからいくつかの注釈付き木を用いた数ショット構文解析モデルに拡張し、解析のためのより優れた線形射影行列を学習する。
FPIOは20本の注釈付き木で訓練され、50本の注釈付き木で訓練された過去の数枚の構文解析よりも優れていた。
論文 参考訳(メタデータ) (2022-06-10T10:29:15Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Co-training an Unsupervised Constituency Parser with Weak Supervision [33.63314110665062]
本稿では,あるノードが文中の特定のスパンを支配しているかどうかを識別するために,ブートストラップ分類器に依存する教師なし解析手法を提案する。
両者の相互作用が両者の精度の向上に役立ち、その結果、効果的に解析できることが示される。
論文 参考訳(メタデータ) (2021-10-05T18:45:06Z) - Strongly Incremental Constituency Parsing with Graph Neural Networks [70.16880251349093]
文を構文木にパースすることは、NLPの下流アプリケーションに恩恵をもたらす。
トランジッションベースは、状態遷移システムでアクションを実行することでツリーを構築する。
既存のトランジションベースは主にシフト・リデュース・トランジション・システムに基づいている。
論文 参考訳(メタデータ) (2020-10-27T19:19:38Z) - Constructing Taxonomies from Pretrained Language Models [52.53846972667636]
本稿では,事前学習した言語モデルを用いて分類木(WordNetなど)を構築する手法を提案する。
我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。
我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
論文 参考訳(メタデータ) (2020-10-24T07:16:21Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - Unsupervised Parsing via Constituency Tests [49.42244463346612]
本稿では,選挙区検定の言語的概念に基づく教師なし解析手法を提案する。
文を与えられた木を生成するために,各木をその選挙区試験判定値の集計によりスコアし,最大スコアの2進木を選択する。
洗練されたモデルはPenn Treebankテストセット上で62.8 F1を達成する。
論文 参考訳(メタデータ) (2020-10-07T04:05:01Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。