論文の概要: Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective
- arxiv url: http://arxiv.org/abs/2305.15057v2
- Date: Tue, 12 Dec 2023 08:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:33:01.353897
- Title: Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective
- Title(参考訳): 言語構造の線形時間モデリング:順序論的視点
- Authors: Tianyu Liu, Afra Amini, Mrinmaya Sachan, Ryan Cotterell
- Abstract要約: 文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
- 参考スコア(独自算出の注目度): 97.57162770792182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks that model the relation between pairs of tokens in a string are a vital
part of understanding natural language. Such tasks, in general, require
exhaustive pair-wise comparisons of tokens, thus having a quadratic runtime
complexity in the length of the string. We show that these exhaustive
comparisons can be avoided, and, moreover, the complexity of such tasks can be
reduced to linear by casting the relation between tokens as a partial order
over the string. Our method predicts real numbers for each token in a string in
parallel and sorts the tokens accordingly, resulting in total orders of the
tokens in the string. Each total order implies a set of arcs oriented from
smaller to greater tokens, sorted by their predicted numbers. The intersection
of total orders results in a partial order over the set of tokens in the
string, which is then decoded into a directed graph representing the desired
linguistic structure. Our experiments on dependency parsing and coreference
resolution show that our method achieves state-of-the-art or comparable
performance. Moreover, the linear complexity and parallelism of our method
double the speed of graph-based coreference resolution models, and bring a
10-times speed-up over graph-based dependency parsers.
- Abstract(参考訳): 文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
このようなタスクは一般的に、トークンのペア単位での徹底的な比較が必要となるため、文字列の長さが2倍に複雑になる。
これらの徹底的な比較を回避できることを示すとともに,文字列上の部分順序としてトークン間の関係をキャストすることで,タスクの複雑さを線形に低減できることを示す。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
各順序は、予測数によってソートされた、より小さいトークンからより大きなトークンへと向き付けられた弧の集合を意味する。
トータルオーダーの交叉は文字列のトークン集合上の部分順序となり、その後、所望の言語構造を表す有向グラフに復号される。
依存関係解析とコア参照分解に関する実験により,本手法が最先端あるいは同等の性能を実現することを示す。
さらに,本手法の線形複雑性と並列性は,グラフベースコリファレンス分解モデルの速度を2倍にし,グラフベースの依存性パーサよりも10倍の高速化を実現する。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - An Expression Tree Decoding Strategy for Mathematical Equation
Generation [24.131972875875952]
既存のアプローチはトークンレベルと表現レベルの生成に大きく分類することができる。
式レベルのメソッドは、各式をひとつずつ生成する。
それぞれの表現は解決ステップを表しており、これらのステップの間には自然に平行あるいは依存的な関係が存在する。
木構造を表現レベル生成に統合し,表現木復号戦略を提唱する。
論文 参考訳(メタデータ) (2023-10-14T17:00:28Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。
私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。
我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-08T18:02:07Z) - Compositional Generalization without Trees using Multiset Tagging and
Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。
次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。
我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文 参考訳(メタデータ) (2023-05-26T14:09:35Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - A Conditional Splitting Framework for Efficient Constituency Parsing [14.548146390081778]
本稿では,選択性解析問題(シンタクティックおよび談話構文解析)を一連の条件分割決定に当てはめる,汎用的なSeq2seq解析フレームワークを提案する。
解析モデルでは,テキストスパンで可能な分割点の条件付き確率分布を推定し,効率的なトップダウンデコーディングをサポートする。
談話分析では, 談話セグメンテーションを解析の特別な事例として扱うことができる。
論文 参考訳(メタデータ) (2021-06-30T00:36:34Z) - An Iterative Contextualization Algorithm with Second-Order Attention [0.40611352512781856]
文を構成する単語の表現をまとまりのある全体にまとめる方法について説明します。
私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。
私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。
論文 参考訳(メタデータ) (2021-03-03T05:34:50Z) - A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。
我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文 参考訳(メタデータ) (2020-09-02T19:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。