論文の概要: Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books
- arxiv url: http://arxiv.org/abs/2506.01796v1
- Date: Mon, 02 Jun 2025 15:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.770086
- Title: Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books
- Title(参考訳): 2つのステップで読む: コード拡張文法の本で極端に低リソースの言語を翻訳する
- Authors: Chen Zhang, Jiuheng Lin, Xiao Liu, Zekai Zhang, Yansong Feng,
- Abstract要約: 本稿では,文法規則検索と適用という2つの重要なステップに分解することで,極めて低リソースな言語を翻訳する上での文法書の役割について検討する。
実験の結果,コードルールの使用はルール検索と適用の両方を大幅に促進し,最終的に13.1%のBLEU翻訳の改善が得られた。
- 参考スコア(独自算出の注目度): 30.608065466078227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) have shown promise in translating extremely low-resource languages using resources like dictionaries, the effectiveness of grammar books remains debated. This paper investigates the role of grammar books in translating extremely low-resource languages by decomposing it into two key steps: grammar rule retrieval and application. To facilitate the study, we introduce ZhuangRules, a modularized dataset of grammar rules and their corresponding test sentences. Our analysis reveals that rule retrieval constitutes a primary bottleneck in grammar-based translation. Moreover, although LLMs can apply simple rules for translation when explicitly provided, they encounter difficulties in handling more complex rules. To address these challenges, we propose representing grammar rules as code functions, considering their similarities in structure and the benefit of code in facilitating LLM reasoning. Our experiments show that using code rules significantly boosts both rule retrieval and application, ultimately resulting in a 13.1% BLEU improvement in translation.
- Abstract(参考訳): 大規模言語モデル (LLM) は辞書などのリソースを用いて非常に低リソースの言語を翻訳する可能性を示しているが、文法書の有効性については議論が続いている。
本稿では,文法規則検索と適用という2つの重要なステップに分解することで,極めて低リソースな言語を翻訳する上での文法書の役割について検討する。
そこで本研究では,文法規則とそれに対応するテスト文をモジュール化したデータセットであるZhuangRulesを紹介する。
分析の結果,規則検索は文法に基づく翻訳において主要なボトルネックとなっていることが明らかとなった。
さらに、LLMは、明示的に提供された場合、翻訳に単純な規則を適用することができるが、より複雑な規則を扱うのに苦労する。
これらの課題に対処するために, 文法規則をコード関数として表現することを提案する。
実験の結果,コードルールの使用はルール検索と適用の両方を大幅に促進し,最終的に13.1%のBLEU翻訳の改善が得られた。
関連論文リスト
- Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning [0.0]
本稿では,Large Language Models (LLMs) が低リソース言語に対して限られたデータ量で文法情報を生成するのにどのように役立つかを検討する。
提案手法では,既存の言語データを整理し,形式的XLE文法を効率的に生成できるようにする。
本研究は,LLMが言語文書作成の取り組みを強化し,言語データの生成に費用対効果のあるソリューションを提供し,絶滅危惧言語の保存に寄与する可能性を明らかにする。
論文 参考訳(メタデータ) (2024-12-14T20:43:12Z) - GrammaMT: Improving Machine Translation with Grammar-Informed In-Context Learning [8.231635424652126]
GrammaMTは、Interlinear Glossed Text (IGT) を用いた機械翻訳のための文法的に認識可能なプロンプト手法である
GrammaMTは、グロスショット、チェーングロス、モデルグロスの3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-10-24T12:56:01Z) - Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book? [6.905647501099997]
この翻訳能力の源泉について検討し,本書の並列例からほぼすべての改良点が得られた。
ネパール語とグアラニ語でも同様の結果が得られ、低リソース言語が見られた。
我々は,XLR言語におけるタスク適合データの重要性を強調した。
論文 参考訳(メタデータ) (2024-09-27T21:27:32Z) - Learning-From-Mistakes Prompting for Indigenous Language Translation [3.7790255156708397]
本稿では,低リソースの母国語翻訳を改善する手法を提案する。
我々のアプローチは、限られた数の並列翻訳例からなるデータストアの使用に基礎を置いています。
我々は、LLMをユニバーサルトランスレータとして使用するような設定において、LLMと文脈内学習技術のポテンシャルを利用する。
論文 参考訳(メタデータ) (2024-07-18T09:41:20Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Sparse Logistic Regression with High-order Features for Automatic Grammar Rule Extraction from Treebanks [6.390468088226495]
本研究では,木バンクから重要な粒度の文法パターンを抽出し,探索する手法を提案する。
我々は,異なる言語にまたがる記述や規則を抽出し,合意と語順の2つの言語現象について考察する。
我々の手法は、スペイン語、フランス語、ウーロフにおける有名な文法規則とあまり知られていない重要な文法規則の両方を捉えている。
論文 参考訳(メタデータ) (2024-03-26T09:39:53Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Grammar Prompting for Domain-Specific Language Generation with Large
Language Models [40.831045850285776]
大規模言語モデル(LLM)は、コンテキスト内サンプルのごく一部から、幅広い自然言語タスクを実行することを学べる。
本稿では,LLMが外部知識やドメイン固有の制約を利用できるための簡単な手法であるEmphgrammar promptingを提案する。
論文 参考訳(メタデータ) (2023-05-30T17:26:01Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。