論文の概要: Levée d'ambiguïtés par grammaires locales
- arxiv url: http://arxiv.org/abs/2510.24530v1
- Date: Tue, 28 Oct 2025 15:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.254775
- Title: Levée d'ambiguïtés par grammaires locales
- Title(参考訳): 地域社会における「文化」の展開
- Authors: Eric G. C. Laporte,
- Abstract要約: 本稿では、ゼロサイレントレートの目的に適応し、SilberzteinのINTEXシステム(1993)で実装された語彙的曖昧化手法について述べる。
本稿では,このフレームワークで局所的な曖昧さの文法を検証するためには,トランスデューサの経路を別々に考えるだけでは不十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many words are ambiguous in terms of their part of speech (POS). However, when a word appears in a text, this ambiguity is generally much reduced. Disambiguating POS involves using context to reduce the number of POS associated with words, and is one of the main challenges of lexical tagging. The problem of labeling words by POS frequently arises in natural language processing, for example for spelling correction, grammar or style checking, expression recognition, text-to-speech conversion, text corpus analysis, etc. Lexical tagging systems are thus useful as an initial component of many natural language processing systems. A number of recent lexical tagging systems produce multiple solutions when the text is lexically ambiguous or the uniquely correct solution cannot be found. These contributions aim to guarantee a zero silence rate: the correct tag(s) for a word must never be discarded. This objective is unrealistic for systems that tag each word uniquely. This article concerns a lexical disambiguation method adapted to the objective of a zero silence rate and implemented in Silberztein's INTEX system (1993). We present here a formal description of this method. We show that to verify a local disambiguation grammar in this framework, it is not sufficient to consider the transducer paths separately: one needs to verify their interactions. Similarly, if a combination of multiple transducers is used, the result cannot be predicted by considering them in isolation. Furthermore, when examining the initial labeling of a text as produced by INTEX, ideas for disambiguation rules come spontaneously, but grammatical intuitions may turn out to be inaccurate, often due to an unforeseen construction or ambiguity. If a zero silence rate is targeted, local grammars must be carefully tested. This is where a detailed specification of what a grammar will do once applied to texts would be necessary.
- Abstract(参考訳): 多くの単語は、発話の一部(POS)に関して曖昧である。
しかし、ある単語がテキストに現れると、この曖昧さは一般的に大幅に減少する。
POSの曖昧さは、単語に関連するPOSの数を減らし、語彙タグ付けの主な課題の1つである。
POSによる単語のラベル付けの問題は、スペル訂正、文法やスタイルチェック、表現認識、テキスト音声変換、テキストコーパス解析など、自然言語処理において頻繁に発生する。
したがって、語彙タグ付けシステムは、多くの自然言語処理システムの初期コンポーネントとして有用である。
最近の多くの語彙タギングシステムは、テキストが語彙的に曖昧であるか、あるいは一意的に正しい解が見つからない場合に複数の解を生成する。
これらのコントリビューションは、ゼロサイレントレートを保証することを目的としている。
この目的は、各単語を一意にタグ付けするシステムにとって非現実的である。
本稿では、ゼロサイレントレートの目的に適応し、SilberzteinのINTEXシステム(1993)で実装された語彙的曖昧化手法について述べる。
ここでは、この方法の正式な記述を示す。
このフレームワークで局所的な曖昧さの文法を検証するためには、トランスデューサパスを別々に考えるだけでは不十分である。
同様に、複数のトランスデューサの組み合わせが使われる場合、結果は独立して考えるだけでは予測できない。
さらに、INTEXによって作成されたテキストの初期のラベル付けを調べると、曖昧な規則の考えは自然に現れるが、文法的な直観は、しばしば予期せぬ構成や曖昧さのために不正確であることが判明する。
ゼロサイレントレートがターゲットならば、局所文法を慎重にテストする必要がある。
ここでは、文法がテキストに適用されたら何をするかの詳細な仕様が必要とされる。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [61.601626186678146]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
本手法により, 単語誤り率の相対的な改善を最大8%まで達成し, 単語誤り率の競争力を維持した。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Phrase Mining [0.8223798883838329]
高品質なフレーズのリストを識別することなく、二重カウントを除去する手法を提案する。
テキストの集合の文脈では、主句を句読点を交差しない句として定義する。
phmと呼ばれるRパッケージが開発され、このメソッドを実装している。
論文 参考訳(メタデータ) (2022-06-28T04:11:31Z) - Grammar Detection for Sentiment Analysis through Improved Viterbi
Algorithm [0.0]
音声タグ付けの一部は、名詞、動詞、形容詞、副詞などを含む文の各単語を指定・タグ付けするタスクである。
このPOSタグを用いた感性分析は、特定のトピックについて、より広範な大衆の要約を促すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-26T04:40:31Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。