Fugu-MT 論文翻訳(概要): Don't Touch My Diacritics

論文の概要: Don't Touch My Diacritics

arxiv url: http://arxiv.org/abs/2410.24140v1
Date: Thu, 31 Oct 2024 17:03:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.938485
Title: Don't Touch My Diacritics
Title（参考訳）: ダイアクリティカルに触るな
Authors: Kyle Gorman, Yuval Pinter,
Abstract要約: 我々は、多くの言語やスクリプトを起源とするテキストにおけるダイアクリティカルな文章の扱いに焦点をあてる。本研究は,いくつかのケーススタディを通じて,ダイアクリティカル文字の非一貫性な符号化と,ダイアクリティカル文字を完全に除去する効果を実証する。
参考スコア（独自算出の注目度）: 6.307256398189243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The common practice of preprocessing text before feeding it into NLP models introduces many decision points which have unintended consequences on model performance. In this opinion piece, we focus on the handling of diacritics in texts originating in many languages and scripts. We demonstrate, through several case studies, the adverse effects of inconsistent encoding of diacritized characters and of removing diacritics altogether. We call on the community to adopt simple but necessary steps across all models and toolkits in order to improve handling of diacritized text and, by extension, increase equity in multilingual NLP.
Abstract（参考訳）: NLPモデルに入力する前にテキストを前処理する一般的なプラクティスは、モデルの性能に意図しない結果をもたらす多くの決定ポイントを導入している。本稿では,多くの言語やスクリプトを起源とするテキストにおけるダイアクリティカルな文章の扱いに着目した。本研究は,いくつかのケーススタディを通じて,ダイアクリティカル文字の非一貫性な符号化と,ダイアクリティカル文字の完全除去の効果を実証する。ダイアライズされたテキストの扱いを改善し、拡張によって多言語NLPの株式を拡大するために、すべてのモデルやツールキットにシンプルだが必要なステップを採用するようコミュニティに呼びかける。

関連論文リスト

Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文参考訳（メタデータ） (2025-07-17T04:48:54Z)
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文参考訳（メタデータ） (2024-09-04T05:08:23Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
We're Calling an Intervention: Exploring Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。我々は、ユーザ生成テキストの中核的な特徴と、既存の言語モデルのバイアスとの相互作用を近似する介入を設計する。非標準テキスト変種への言語モデル適応における介入の適用により、そのような適応がいつ成功したかについて重要な洞察を得る。
論文参考訳（メタデータ） (2024-04-10T18:56:53Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文参考訳（メタデータ） (2024-03-05T13:55:16Z)
Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文参考訳（メタデータ） (2023-06-06T10:18:17Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文参考訳（メタデータ） (2021-11-18T10:52:48Z)
Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。このアプローチは、一貫性と正しい語彙に依存している。人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文参考訳（メタデータ） (2021-04-16T16:37:13Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文参考訳（メタデータ） (2020-10-04T20:12:44Z)
A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文参考訳（メタデータ） (2020-06-07T01:20:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。