Fugu-MT 論文翻訳(概要): PALI: A Language Identification Benchmark for Perso-Arabic Scripts

論文の概要: PALI: A Language Identification Benchmark for Perso-Arabic Scripts

arxiv url: http://arxiv.org/abs/2304.01322v1
Date: Mon, 3 Apr 2023 19:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 16:37:20.003298
Title: PALI: A Language Identification Benchmark for Perso-Arabic Scripts
Title（参考訳）: PALI:ペルソ・アラビア文字の言語識別ベンチマーク
Authors: Sina Ahmadi and Milind Agarwal and Antonios Anastasopoulos
Abstract要約: 本稿ではペルソ・アラビア文字を用いた言語検出の課題について述べる。文を言語に分類するために、教師付きテクニックのセットを使用します。また,しばしば混同される言語群を対象とする階層モデルを提案する。
参考スコア（独自算出の注目度）: 30.99179028187252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Perso-Arabic scripts are a family of scripts that are widely adopted and used by various linguistic communities around the globe. Identifying various languages using such scripts is crucial to language technologies and challenging in low-resource setups. As such, this paper sheds light on the challenges of detecting languages using Perso-Arabic scripts, especially in bilingual communities where ``unconventional'' writing is practiced. To address this, we use a set of supervised techniques to classify sentences into their languages. Building on these, we also propose a hierarchical model that targets clusters of languages that are more often confused by the classifiers. Our experiment results indicate the effectiveness of our solutions.
Abstract（参考訳）: ペルソ・アラビア文字(Perso-Arabic script)は、世界中の様々な言語コミュニティで広く採用され使用されている文字群である。このようなスクリプトを使って様々な言語を識別することは、言語技術にとって重要であり、低リソースのセットアップでは困難である。そこで本稿では,ペルソ・アラビア文字を用いた言語検出の課題について,特に「非従来的」な文章を実践するバイリンガル・コミュニティで取り上げる。これを解決するために,教師付き手法を用いて文を言語に分類する。また,これらに基づいて,分類器によって混同されることが多い言語群を対象とする階層モデルを提案する。私たちの実験結果は、ソリューションの有効性を示しています。

関連論文リスト

Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文参考訳（メタデータ） (2026-01-06T10:45:04Z)
The Role of Orthographic Consistency in Multilingual Embedding Models for Text Classification in Arabic-Script Languages [30.39307182175106]
アラビア文字のRoBERTa(AS-RoBERTa)ファミリー:RoBERTaをベースとした4つのモデルを紹介する。アラビア文字を用いた言語におけるスクリプト認識特化の価値を強調し、スクリプトと言語特異性に根ざした事前学習戦略をさらに支援した。
論文参考訳（メタデータ） (2025-07-24T19:28:33Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文参考訳（メタデータ） (2024-06-25T19:23:42Z)
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。 MYTEは99の言語すべてに対して短いエンコーディングを生成する。これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文参考訳（メタデータ） (2024-03-15T21:21:11Z)
Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文参考訳（メタデータ） (2024-02-28T15:15:39Z)
Share What You Already Know: Cross-Language-Script Transfer and Alignment for Sentiment Detection in Code-Mixed Data [0.0]
コードスイッチングには複数の言語が混在しており、ソーシャルメディアのテキストでますます発生してきている現象である。事前訓練された多言語モデルは、主に言語のネイティブスクリプトのデータを利用する。各言語でネイティブスクリプトを使用すると、事前訓練された知識のため、テキストのより良い表現が生成される。
論文参考訳（メタデータ） (2024-02-07T02:59:18Z)
Script Normalization for Unconventional Writing of Under-Resourced Languages in Bilingual Communities [36.578851892373365]
ソーシャルメディアは言語的に表現されていないコミュニティに、彼らの母国語でコンテンツを制作する素晴らしい機会を与えてきた。本稿では、主にペルソ・アラビア文字で書かれたいくつかの言語に対するスクリプト正規化の問題に対処する。各種ノイズレベルの合成データと変圧器モデルを用いて, この問題を効果的に再現できることを実証した。
論文参考訳（メタデータ） (2023-05-25T18:18:42Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。自然言語処理(NLP)の状況に注目する。ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文参考訳（メタデータ） (2022-10-21T21:59:44Z)
Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文参考訳（メタデータ） (2021-06-29T05:42:54Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Bridging Linguistic Typology and Multilingual Machine Translation with Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。我々の表現は類型学を組み込み、言語関係と相関関係を強化する。次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文参考訳（メタデータ） (2020-04-30T16:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。