論文の概要: The Degree of Language Diacriticity and Its Effect on Tasks
- arxiv url: http://arxiv.org/abs/2603.27653v1
- Date: Sun, 29 Mar 2026 12:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.057332
- Title: The Degree of Language Diacriticity and Its Effect on Tasks
- Title(参考訳): 言語ダイアクリティカルリティの度合いと課題への影響
- Authors: Adi Cohen, Yuval Pinter,
- Abstract要約: ダイアクリティカルな複雑性を定量化するためのデータ駆動型フレームワークを提案する。
我々はこのメトリクスを15言語で24コーパスで計算し、単一のスクリプトとマルチダイアクリティカルなスクリプトの両方にまたがる。
言語全体において、高いダイアクリティカルな複雑さは、修復精度の低下と強く関連していることがわかった。
- 参考スコア(独自算出の注目度): 8.254230288283258
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diacritics are orthographic marks that clarify pronunciation, distinguish similar words, or alter meaning. They play a central role in many writing systems, yet their impact on language technology has not been systematically quantified across scripts. While prior work has examined diacritics in individual languages, there's no cross-linguistic, data-driven framework for measuring the degree to which writing systems rely on them and how this affects downstream tasks. We propose a data-driven framework for quantifying diacritic complexity using corpus-level, information-theoretic metrics that capture the frequency, ambiguity, and structural diversity of character-diacritic combinations. We compute these metrics over 24 corpora in 15 languages, spanning both single- and multi-diacritic scripts. We then examine how diacritic complexity correlates with performance on the task of diacritics restoration, evaluating BERT- and RNN-based models. We find that across languages, higher diacritic complexity is strongly associated with lower restoration accuracy. In single-diacritic scripts, where character-diacritic combinations are more predictable, frequency-based and structural measures largely align. In multi-diacritic scripts, however, structural complexity exhibits the strongest association with performance, surpassing frequency-based measures. These findings show that measurable properties of diacritic usage influence the performance of diacritic restoration models, demonstrating that orthographic complexity is not only descriptive but functionally relevant for modeling.
- Abstract(参考訳): 発音を明確化し、類似した単語を区別したり、意味を変えたりする正書法記号である。
多くの記述システムにおいて中心的な役割を果たすが、言語技術への影響はスクリプト間で体系的に定量化されていない。
以前の研究では、個々の言語のダイアクリティカルな部分を調べてきましたが、記述システムが依存する程度と、それが下流タスクにどのように影響するかを測定するための言語横断的な、データ駆動のフレームワークはありません。
コーパスレベル, 情報理論の指標を用いて, 文字と発音の組み合わせの頻度, あいまいさ, 構造的多様性を定量化するためのデータ駆動型フレームワークを提案する。
我々はこのメトリクスを15言語で24コーパスで計算し、単一のスクリプトとマルチダイアクリティカルなスクリプトの両方にまたがる。
次に, ダイアクリティカル・リカバリの課題において, ダイアクリティカル・複雑性とパフォーマンスの相関関係について検討し, BERTモデルとRNNモデルの評価を行った。
言語全体において、高いダイアクリティカルな複雑さは、修復精度の低下と強く関連していることがわかった。
シングルダイアクリティカルなスクリプトでは、文字とダイアクリティカルな組み合わせはより予測可能であり、周波数ベースであり、構造的基準は概ね一致している。
しかし、マルチダイアクリティカルなスクリプトでは、構造的な複雑さは、周波数ベースの測度を超えたパフォーマンスと最も強い関係を示す。
これらの結果から,図形的複雑性は記述的だけでなく,機能的にもモデル化に関係があることが示唆された。
関連論文リスト
- Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - Don't Touch My Diacritics [6.307256398189243]
我々は、多くの言語やスクリプトを起源とするテキストにおけるダイアクリティカルな文章の扱いに焦点をあてる。
本研究は,いくつかのケーススタディを通じて,ダイアクリティカル文字の非一貫性な符号化と,ダイアクリティカル文字を完全に除去する効果を実証する。
論文 参考訳(メタデータ) (2024-10-31T17:03:44Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - On-Device Language Identification of Text in Images using Diacritic
Characters [0.0]
発音文字は、与えられた言語をかなり高い精度で識別する上で、適切かつ重要な手がかりを提供する、一意の文字集合と見なすことができる。
我々は,任意の自動環境下での光学的文字認識(OCR)性能を向上させるために,発音文字の存在を利用して画像中のテキストの言語を特定することを目的とする。
論文 参考訳(メタデータ) (2020-11-10T14:10:06Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。