論文の概要: Word Chain Generators for Prefix Normal Words
- arxiv url: http://arxiv.org/abs/2508.19619v1
- Date: Wed, 27 Aug 2025 06:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.531168
- Title: Word Chain Generators for Prefix Normal Words
- Title(参考訳): 正規語修正のための単語連鎖生成器
- Authors: Duncan Adamson, Moritz Dudey, Pamela Fleischmann, Annika Huch,
- Abstract要約: 2011年、フィシとリプタックは接頭辞の正規語を導入した。
プレフィックス正規語の様々な特徴を示す。
単語チェーンとジェネレータにより、同じ長さの単語を相互に関連付ける新しい方法を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In 2011, Fici and Lipt\'ak introduced prefix normal words. A binary word is prefix normal if it has no factor (substring) that contains more occurrences of the letter 1 than the prefix of the same length. Among the open problems regarding this topic are the enumeration of prefix normal words and efficient testing methods. We show a range of characteristics of prefix normal words. These include properties of factors that are responsible for a word not being prefix normal. With word chains and generators, we introduce new ways of relating words of the same length to each other.
- Abstract(参考訳): 2011年、FiciとLipt\'akはプレフィックス正規語を導入した。
二項語は、同じ長さの接頭辞よりも文字1のより多くの発生を含む因子(サブストリング)が存在しない場合、接頭辞正規である。
このトピックに関するオープンな問題には、プレフィックス正規語の列挙と効率的なテスト方法がある。
プレフィックス正規語の様々な特徴を示す。
これらは、プレフィックス正規でない単語に責任を持つ因子の特性を含む。
単語チェーンとジェネレータにより、同じ長さの単語を相互に関連付ける新しい方法を導入する。
関連論文リスト
- Word Order and World Knowledge [9.22384870426709]
言語モデルを用いて,語順が生テキストから世界知識の誘導にどう影響するかを考察する。
具体的には、自然語順に加えて、5つの言語からそれぞれ6つの固定語順のテキストを抽出する。
論文 参考訳(メタデータ) (2024-03-01T08:13:48Z) - Normalization of Lithuanian Text Using Regular Expressions [0.0]
テキスト正規化は、音声合成システムにおいて不可欠な部分である。
各NSWのセミオティッククラスを特定する必要がある。
リトアニア語に適応したセミオティッククラスの分類が提示される。
論文 参考訳(メタデータ) (2023-12-29T15:56:24Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Boosting word frequencies in authorship attribution [0.0]
本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。
関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。
提案手法は古典的最頻単語のアプローチを大幅に上回る。
論文 参考訳(メタデータ) (2022-11-02T17:11:35Z) - MaxMatch-Dropout: Subword Regularization for WordPiece [3.167685495996986]
提案手法であるMaxMatch-Dropoutは,最大マッチングアルゴリズムを用いて単語をランダムに検索する。
BERTベースのような訓練済み言語モデルのサブワード正規化による微調整を実現する。
論文 参考訳(メタデータ) (2022-09-09T05:41:26Z) - Using Paraphrases to Study Properties of Contextual Embeddings [46.84861591608146]
我々は、コンテキスト化された埋め込みを分析するために、独自のデータソースとしてパラフレーズを使用します。
パラフレーズは自然に一貫した単語やフレーズのセマンティクスを符号化するため、埋め込みの性質を調査するためのユニークなレンズを提供する。
文脈埋め込みは多文語を効果的に扱うが、多くの場合、驚くほど異なる表現を与える。
論文 参考訳(メタデータ) (2022-07-12T14:22:05Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。