論文の概要: On Parsing as Tagging
- arxiv url: http://arxiv.org/abs/2211.07344v1
- Date: Mon, 14 Nov 2022 13:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 17:39:35.849136
- Title: On Parsing as Tagging
- Title(参考訳): タグづけとしてのパースについて
- Authors: Afra Amini, Ryan Cotterell
- Abstract要約: そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
- 参考スコア(独自算出の注目度): 66.31276017088477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been many proposals to reduce constituency parsing to tagging in
the literature. To better understand what these approaches have in common, we
cast several existing proposals into a unifying pipeline consisting of three
steps: linearization, learning, and decoding. In particular, we show how to
reduce tetratagging, a state-of-the-art constituency tagger, to shift--reduce
parsing by performing a right-corner transformation on the grammar and making a
specific independence assumption. Furthermore, we empirically evaluate our
taxonomy of tagging pipelines with different choices of linearizers, learners,
and decoders. Based on the results in English and a set of 8 typologically
diverse languages, we conclude that the linearization of the derivation tree
and its alignment with the input sequence is the most critical factor in
achieving accurate taggers.
- Abstract(参考訳): 文学におけるタグ付けによる選挙区パーシングを減らすための提案が数多くある。
これらのアプローチの共通点をよりよく理解するため、線形化、学習、復号化という3つのステップからなる統一パイプラインに、既存の提案をいくつか導入しました。
特に,現在最先端の選挙区タグであるテトラタギングを減らして,文法上で右コーナー変換を行い,特定の独立性を仮定することで,シフト-リデュース解析を行う方法を示す。
さらに,リニアライザ,学習者,デコーダの選択の異なるタギングパイプラインの分類を経験的に評価した。
英文の結果と8つの類型的多種多様な言語の集合に基づき、導出木の線形化とその入力列へのアライメントが正確なタガーを達成する上で最も重要な要因であると結論づける。
関連論文リスト
- Greed is All You Need: An Evaluation of Tokenizer Inference Methods [4.698185114636673]
4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークン化手法の制御解析を行う。
我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。
論文 参考訳(メタデータ) (2024-03-02T19:01:40Z) - Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。
その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。
プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文 参考訳(メタデータ) (2023-09-20T09:23:36Z) - Contextual Distortion Reveals Constituency: Masked Language Models are
Implicit Parsers [7.558415495951758]
マスク付き言語モデル(LM)から解析木を抽出する新しい手法を提案する。
本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを算出する。
本手法は,マスク付きLMを用いた英語における従来の最先端手法を一貫して上回り,多言語環境での優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T13:10:48Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Enriching Disentanglement: Definitions to Metrics [97.34033555407403]
分散表現学習は、複雑なデータの変動の複数の要因を分離する難題である。
不整合表現の学習と評価のための様々な指標が提案されているが、これらの指標が真に何を定量化し、どのように比較するかは定かではない。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - A Unifying Theory of Transition-based and Sequence Labeling Parsing [14.653008985229617]
文を左から右へ読み取る遷移に基づく構文解析アルゴリズムを,構文木をエンコードするシーケンスラベリングアルゴリズムにマップする。
これにより、トランジションベースの構文解析とシーケンスラベル解析の理論的関係が確立される。
4つのアルゴリズムのシーケンスラベリングバージョンを実装し、学習可能であり、既存のエンコーディングに匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-11-01T18:25:15Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。