論文の概要: Translation Asymmetry in LLMs as a Data Augmentation Factor: A Case Study for 6 Romansh Language Varieties
- arxiv url: http://arxiv.org/abs/2603.25489v1
- Date: Thu, 26 Mar 2026 14:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.331423
- Title: Translation Asymmetry in LLMs as a Data Augmentation Factor: A Case Study for 6 Romansh Language Varieties
- Title(参考訳): データ拡張因子としてのLLMの翻訳非対称性:6つのロマンシュ言語を事例として
- Authors: Jannis Vamvas, Ignacio Pérez Prat, Angela Heldstab, Dominic P. Fischer, Sina Ahmadi, Rico Sennrich,
- Abstract要約: データ拡張の方向は、ソースとターゲット言語間のリソース勾配に一致すべきであることを示す。
人間の評価により、我々の実験は、個々のロマンシュ変種で流動的な翻訳を生成する最初のモデルを生み出すことが確認される。
- 参考スコア(独自算出の注目度): 29.985062862683467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent strategies for low-resource machine translation rely on LLMs to generate synthetic data from higher-resource languages. We find that this method fails for Romansh, because LLMs tend to confuse its 6 distinct language varieties. Our experiments show that instead, the direction of data augmentation should be aligned with the resource gradient between source and target language. This approach surpasses Gemini 3 Pro in the lowest-resource variety of Romansh by 23 BLEU. A human evaluation confirms that our experiments yield the first model that generates fluent translations in the individual Romansh varieties.
- Abstract(参考訳): 低リソース機械翻訳の最近の戦略は、高リソース言語から合成データを生成するためにLLMに依存している。
LLMは6つの異なる言語を混同する傾向があるため、この手法はRomanshでは失敗する。
実験の結果、データ拡張の方向は、ソースとターゲット言語間のリソース勾配と一致すべきであることがわかった。
このアプローチは、Romanshの最低リソース品種であるGemini 3 Proを23 BLEUで上回っている。
人間の評価により、我々の実験は、個々のロマンシュ変種で流動的な翻訳を生成する最初のモデルを生み出すことが確認される。
関連論文リスト
- Winning with Less for Low Resource Languages: Advantage of Cross-Lingual English_Persian Argument Mining Model over LLM Augmentation [0.12744523252873352]
本稿では,低リソース言語における議論マイニングのための言語間アプローチを活用することを目的とする。
我々は、高リソース言語として英語、低リソース言語としてペルシア語でモデルを検証した。
論文 参考訳(メタデータ) (2025-11-25T21:36:39Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation [6.273933281069326]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文 参考訳(メタデータ) (2024-01-12T15:46:43Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。