Fugu-MT 論文翻訳(概要): On Parsing as Tagging

論文の概要: On Parsing as Tagging

arxiv url: http://arxiv.org/abs/2211.07344v1
Date: Mon, 14 Nov 2022 13:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 17:39:35.849136
Title: On Parsing as Tagging
Title（参考訳）: タグづけとしてのパースについて
Authors: Afra Amini, Ryan Cotterell
Abstract要約: そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
参考スコア（独自算出の注目度）: 66.31276017088477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There have been many proposals to reduce constituency parsing to tagging in the literature. To better understand what these approaches have in common, we cast several existing proposals into a unifying pipeline consisting of three steps: linearization, learning, and decoding. In particular, we show how to reduce tetratagging, a state-of-the-art constituency tagger, to shift--reduce parsing by performing a right-corner transformation on the grammar and making a specific independence assumption. Furthermore, we empirically evaluate our taxonomy of tagging pipelines with different choices of linearizers, learners, and decoders. Based on the results in English and a set of 8 typologically diverse languages, we conclude that the linearization of the derivation tree and its alignment with the input sequence is the most critical factor in achieving accurate taggers.
Abstract（参考訳）: 文学におけるタグ付けによる選挙区パーシングを減らすための提案が数多くある。これらのアプローチの共通点をよりよく理解するため、線形化、学習、復号化という3つのステップからなる統一パイプラインに、既存の提案をいくつか導入しました。特に,現在最先端の選挙区タグであるテトラタギングを減らして,文法上で右コーナー変換を行い,特定の独立性を仮定することで,シフト-リデュース解析を行う方法を示す。さらに,リニアライザ,学習者,デコーダの選択の異なるタギングパイプラインの分類を経験的に評価した。英文の結果と8つの類型的多種多様な言語の集合に基づき、導出木の線形化とその入力列へのアライメントが正確なタガーを達成する上で最も重要な要因であると結論づける。

関連論文リスト

Incremental Context-free Grammar Inference in Black Box Settings [17.601446198181048]
ブラックボックスの文脈自由文法推論は多くの実践的な設定において重要な課題である。そこで本研究では,サンプル文字列をより小さな単位に分割し,文法を漸進的に推論する手法を提案する。我々の手法であるKedavraは、より優れた文法品質(精度とリコールの強化)、より高速な実行、経験的比較による可読性の向上を実証した。
論文参考訳（メタデータ） (2024-08-29T17:00:38Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T13:48:19Z)
Greed is All You Need: An Evaluation of Tokenizer Inference Methods [4.300681074103876]
4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークン化手法の制御解析を行う。我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。
論文参考訳（メタデータ） (2024-03-02T19:01:40Z)
Assessment of Pre-Trained Models Across Languages and Grammars [7.466159270333272]
シーケンスラベリングとしてパースをキャストすることで,構成構造と依存性構造を復元することを目的としている。その結果、事前学習された単語ベクトルは、依存関係よりも構文の連続表現を好まないことが明らかとなった。プレトレーニングデータ中の言語の発生は、単語ベクトルから構文を回復する際のタスクデータ量よりも重要である。
論文参考訳（メタデータ） (2023-09-20T09:23:36Z)
Towards Unsupervised Recognition of Token-level Semantic Differences in Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2023-05-22T17:58:04Z)
Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文参考訳（メタデータ） (2022-11-03T08:19:00Z)
Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文参考訳（メタデータ） (2022-05-23T16:47:37Z)
Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文参考訳（メタデータ） (2022-05-15T12:58:35Z)
Unsupervised Parsing via Constituency Tests [49.42244463346612]
本稿では,選挙区検定の言語的概念に基づく教師なし解析手法を提案する。文を与えられた木を生成するために,各木をその選挙区試験判定値の集計によりスコアし,最大スコアの2進木を選択する。洗練されたモデルはPenn Treebankテストセット上で62.8 F1を達成する。
論文参考訳（メタデータ） (2020-10-07T04:05:01Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。