論文の概要: Crowdsourcing Piedmontese to Test LLMs on Non-Standard Orthography
- arxiv url: http://arxiv.org/abs/2602.14675v1
- Date: Mon, 16 Feb 2026 12:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.388404
- Title: Crowdsourcing Piedmontese to Test LLMs on Non-Standard Orthography
- Title(参考訳): LLMを非標準オーソグラフィーでテストするためのPedmonteseのクラウドソーシング
- Authors: Gianluca Vico, Jindřich Libovický,
- Abstract要約: このデータセットは、フロレス+から派生した145のイタリア・ピエモンテの並列文からなる。
このリソースを使用して、トークン化パリティ、トピック分類、機械翻訳に関するいくつかの大きな言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 1.3873397698625443
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a crowdsourced dataset for Piedmontese, an endangered Romance language of northwestern Italy. The dataset comprises 145 Italian-Piedmontese parallel sentences derived from Flores+, with translations produced by speakers writing in their natural orthographic style rather than adhering to standardized conventions, along with manual word alignment. We use this resource to benchmark several large language models on tokenization parity, topic classification, and machine translation. Our analysis reveals that Piedmontese incurs a tokenization penalty relative to higher-resource Romance languages, yet LLMs achieve classification performance approaching that of Italian, French, and English. Machine translation results are asymmetric: models translate adequately from Piedmontese into high-resource languages, but generation into Piedmontese remains challenging. The dataset and code are publicly released.
- Abstract(参考訳): 我々は、イタリア北西部の絶滅危惧言語であるピエモンテ語について、クラウドソースでデータセットを提示する。
このデータセットは、フロレス+から派生した145のイタリア語とピエモンテ語の並行文で構成されており、手動の単語アライメントとともに標準化された慣習に固執するのではなく、話者が自然な正書法で書くことによって翻訳されている。
このリソースを使用して、トークン化パリティ、トピック分類、機械翻訳に関するいくつかの大きな言語モデルをベンチマークする。
我々の分析によると、ピードモント語は高資源のロマンス語と比較してトークン化のペナルティをもたらしているが、LLMはイタリア語、フランス語、英語に近づいた分類性能を達成している。
機械翻訳の結果は非対称であり、モデルはピードモント語からハイソース言語に適切に翻訳されるが、パイドモント語への生成は依然として困難である。
データセットとコードは公開されている。
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Exploring NLP Benchmarks in an Extremely Low-Resource Setting [21.656551146954587]
本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
論文 参考訳(メタデータ) (2025-09-04T07:41:23Z) - Aligning Large Language Models to Low-Resource Languages through LLM-Based Selective Translation: A Systematic Study [3.9680588541743718]
選択的翻訳は、翻訳不可能な内容と文構造を保持しながら、テキストの翻訳可能な部分のみを翻訳する技法である。
実験では、低リソースのIndic言語Hindiに着目し、Google Cloud Translation(GCP)とLlama-3.1-405Bで生成された翻訳を比較した。
論文 参考訳(メタデータ) (2025-07-18T18:21:52Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models [2.186901738997927]
本稿では,低リソースインドネシア語用機械翻訳モデルであるNusaMT-7Bを紹介する。
提案手法は, 単言語データ, Supervised Fine-Tuning (SFT) , 自己学習, LLMベースのデータクリーナーを併用し, 並列文のノイズを低減する。
この結果から,LLMの微調整により,低リソース言語への翻訳品質が向上し,言語保存や異文化間コミュニケーションに寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:33:25Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Multilingual Unsupervised Neural Machine Translation with Denoising
Adapters [77.80790405710819]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。
この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。
本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-20T10:18:29Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。