Fugu-MT 論文翻訳(概要): Learning the String Partial Order

論文の概要: Learning the String Partial Order

arxiv url: http://arxiv.org/abs/2305.15057v1
Date: Wed, 24 May 2023 11:47:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 16:16:00.975609
Title: Learning the String Partial Order
Title（参考訳）: 文字列部分順序の学習
Authors: Tianyu Liu, Afra Amini, Mrinmaya Sachan, Ryan Cotterell
Abstract要約: 入力文字列中のトークンの部分順序付けとして,ほとんどの構造化された予測問題を線形時間と空間で解くことができることを示す。提案手法は,入力文字列中の各トークンの実際の数値を計算し,それに応じてトークンをソートし,文字列内のトークンの総順序を2つに抑える。実験の結果,本手法は合計2桁,95.7 LASと97.1 UASの交叉を用いて95.4 LASと96.9 UASを達成することがわかった。
参考スコア（独自算出の注目度）: 70.41889338953715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that most structured prediction problems can be solved in linear time and space by considering them as partial orderings of the tokens in the input string. Our method computes real numbers for each token in an input string and sorts the tokens accordingly, resulting in as few as 2 total orders of the tokens in the string. Each total order possesses a set of edges oriented from smaller to greater tokens. The intersection of total orders results in a partial order over the set of input tokens, which is then decoded into a directed graph representing the desired structure. Experiments show that our method achieves 95.4 LAS and 96.9 UAS by using an intersection of 2 total orders, 95.7 LAS and 97.1 UAS with 4 on the English Penn Treebank dependency parsing benchmark. Our method is also the first linear-complexity coreference resolution model and achieves 79.2 F1 on the English OntoNotes benchmark, which is comparable with state of the art.
Abstract（参考訳）: 入力文字列中のトークンの部分順序付けとして,ほとんどの構造化された予測問題を線形時間と空間で解くことができることを示す。提案手法は,入力文字列中の各トークンの実際の数値を計算し,それに応じてトークンをソートし,文字列内のトークンの総順序を2つに抑える。各順序は、より小さいトークンからより大きなトークンへ向けられた一連のエッジを持つ。合計順序の交叉は、入力トークンの集合上の部分順序となり、その後、所望の構造を表す有向グラフに復号される。実験の結果,本手法は合計2桁,95.7 LASと97.1 UASの交叉を用いて95.4 LASと96.9 UASを達成することがわかった。また,本手法は最初の線形複素性共参照分解モデルであり,state of the artに匹敵するイングリッシュ・オントノート・ベンチマークで79.2 f1を達成した。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
A New Graph Grammar Formalism for Robust Syntactic Pattern Recognition [0.0]
従来のグラフ文法のように生産規則を使用しないが、より直接的かつ宣言的な方法で構文構造を表現する。文法とパターンはともにネットワークとして表現され、解析はパターンから文法への準同型の構成と見なされる。
論文参考訳（メタデータ） (2025-04-22T15:23:37Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、内部的、数学的には、エンファラクタ文字列ではなくトークン文字列上の分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。そのByte-Pairを示します。 Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文参考訳（メタデータ） (2024-10-21T07:10:07Z)
An Expression Tree Decoding Strategy for Mathematical Equation Generation [24.131972875875952]
既存のアプローチはトークンレベルと表現レベルの生成に大きく分類することができる。式レベルのメソッドは、各式をひとつずつ生成する。それぞれの表現は解決ステップを表しており、これらのステップの間には自然に平行あるいは依存的な関係が存在する。木構造を表現レベル生成に統合し,表現木復号戦略を提唱する。
論文参考訳（メタデータ） (2023-10-14T17:00:28Z)
Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文参考訳（メタデータ） (2023-09-29T16:50:23Z)
Hexatagging: Projective Dependency Parsing as Tagging [63.5392760743851]
文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性であるヘキサトガーを導入する。私たちのアプローチは、トレーニング時に完全に並列化可能です。すなわち、依存関係のパースを構築するのに必要な構造構築アクションは、互いに並列に予測できます。我々はPenn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-08T18:02:07Z)
Compositional Generalization without Trees using Multiset Tagging and Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文参考訳（メタデータ） (2023-05-26T14:09:35Z)
Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文参考訳（メタデータ） (2023-04-28T01:47:09Z)
A Conditional Splitting Framework for Efficient Constituency Parsing [14.548146390081778]
本稿では,選択性解析問題(シンタクティックおよび談話構文解析)を一連の条件分割決定に当てはめる,汎用的なSeq2seq解析フレームワークを提案する。解析モデルでは,テキストスパンで可能な分割点の条件付き確率分布を推定し,効率的なトップダウンデコーディングをサポートする。談話分析では, 談話セグメンテーションを解析の特別な事例として扱うことができる。
論文参考訳（メタデータ） (2021-06-30T00:36:34Z)
An Iterative Contextualization Algorithm with Second-Order Attention [0.40611352512781856]
文を構成する単語の表現をまとまりのある全体にまとめる方法について説明します。私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。
論文参考訳（メタデータ） (2021-03-03T05:34:50Z)
A Simple Global Neural Discourse Parser [61.728994693410954]
本稿では,手作業で構築した特徴を必要とせず,学習したスパン表現のみに基づく簡易なグラフベースニューラル談話を提案する。我々は,我々のモデルが世界規模で最高の性能を達成し,最先端の欲求に匹敵する性能を実証的に示す。
論文参考訳（メタデータ） (2020-09-02T19:28:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。