論文の概要: Crowdsourcing Piedmontese to Test LLMs on Non-Standard Orthography
- arxiv url: http://arxiv.org/abs/2602.14675v1
- Date: Mon, 16 Feb 2026 12:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.388404
- Title: Crowdsourcing Piedmontese to Test LLMs on Non-Standard Orthography
- Title(参考訳): LLMを非標準オーソグラフィーでテストするためのPedmonteseのクラウドソーシング
- Authors: Gianluca Vico, Jindřich Libovický,
- Abstract要約: このデータセットは、フロレス+から派生した145のイタリア・ピエモンテの並列文からなる。
このリソースを使用して、トークン化パリティ、トピック分類、機械翻訳に関するいくつかの大きな言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 1.3873397698625443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a crowdsourced dataset for Piedmontese, an endangered Romance language of northwestern Italy. The dataset comprises 145 Italian-Piedmontese parallel sentences derived from Flores+, with translations produced by speakers writing in their natural orthographic style rather than adhering to standardized conventions, along with manual word alignment. We use this resource to benchmark several large language models on tokenization parity, topic classification, and machine translation. Our analysis reveals that Piedmontese incurs a tokenization penalty relative to higher-resource Romance languages, yet LLMs achieve classification performance approaching that of Italian, French, and English. Machine translation results are asymmetric: models translate adequately from Piedmontese into high-resource languages, but generation into Piedmontese remains challenging. The dataset and code are publicly released.
- Abstract(参考訳): 我々は、イタリア北西部の絶滅危惧言語であるピエモンテ語について、クラウドソースでデータセットを提示する。
このデータセットは、フロレス+から派生した145のイタリア語とピエモンテ語の並行文で構成されており、手動の単語アライメントとともに標準化された慣習に固執するのではなく、話者が自然な正書法で書くことによって翻訳されている。
このリソースを使用して、トークン化パリティ、トピック分類、機械翻訳に関するいくつかの大きな言語モデルをベンチマークする。
我々の分析によると、ピードモント語は高資源のロマンス語と比較してトークン化のペナルティをもたらしているが、LLMはイタリア語、フランス語、英語に近づいた分類性能を達成している。
機械翻訳の結果は非対称であり、モデルはピードモント語からハイソース言語に適切に翻訳されるが、パイドモント語への生成は依然として困難である。
データセットとコードは公開されている。
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Exploring NLP Benchmarks in an Extremely Low-Resource Setting [21.656551146954587]
本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
論文 参考訳(メタデータ) (2025-09-04T07:41:23Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。