論文の概要: Pairing Orthographically Variant Literary Words to Standard Equivalents
Using Neural Edit Distance Models
- arxiv url: http://arxiv.org/abs/2401.15068v1
- Date: Fri, 26 Jan 2024 18:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:17:26.294265
- Title: Pairing Orthographically Variant Literary Words to Standard Equivalents
Using Neural Edit Distance Models
- Title(参考訳): ニューラル編集距離モデルを用いたオルソグラフィ的可変文単語の標準等価化
- Authors: Craig Messner and Tom Lippincott
- Abstract要約: 本稿は,19世紀の米国文学において,対応する「標準」単語対に注釈を付した正書学的に変化した単語からなる,新しいコーパスを提案する。
我々は、これらの変種を標準形式と組み合わせるために、一連のニューラル編集距離モデルを訓練し、これらのモデルの性能をL2英語学習者による正書法誤差のコーパスに基づいて訓練されたニューラル編集距離モデルの性能と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel corpus consisting of orthographically variant words found
in works of 19th century U.S. literature annotated with their corresponding
"standard" word pair. We train a set of neural edit distance models to pair
these variants with their standard forms, and compare the performance of these
models to the performance of a set of neural edit distance models trained on a
corpus of orthographic errors made by L2 English learners. Finally, we analyze
the relative performance of these models in the light of different negative
training sample generation strategies, and offer concluding remarks on the
unique challenge literary orthographic variation poses to string pairing
methodologies.
- Abstract(参考訳): 本稿は,19世紀の米国文学において,対応する「標準」単語対に注釈を付した正書的変種単語からなる新しいコーパスを提案する。
我々は、これらの変種を標準形式と組み合わせるために一連のニューラル編集距離モデルを訓練し、これらのモデルの性能をL2英語学習者による正書法誤差のコーパスに基づいて訓練されたニューラル編集距離モデルの性能と比較する。
最後に,これらのモデルの相対的パフォーマンスを,異なる負のトレーニングサンプル生成戦略に照らして分析し,文字列ペアリング手法に対する一意な難易度を示す。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus [0.0]
19世紀のアメリカの文学的変種トークンのデータセットを,人間の注釈付き方言群タグの新たな層で提示する。
意図的な正書法変化によって生じる「方言効果」が複数の言語チャネルを取り入れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:58:21Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - The Scenario Refiner: Grounding subjects in images at the morphological
level [2.401993998791928]
視覚と言語(V&L)モデルがこのような特徴を形態学レベルで捉えているかどうかを問う。
我々は、V&Lモデルと人間の判断を比較し、モデルの予測が人間の判断と異なることを発見した。
論文 参考訳(メタデータ) (2023-09-20T12:23:06Z) - Visual Comparison of Language Model Adaptation [55.92129223662381]
アダプタは、モデル適応のための軽量な代替品です。
本稿では,インタラクティブな視覚的説明手法について,いくつかの設計と代替案について論じる。
例えば、文脈0の埋め込みに従って言語脱バイアスタスクを訓練したアダプタが、新しいタイプのバイアスをもたらすことを示す。
論文 参考訳(メタデータ) (2022-08-17T09:25:28Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。