論文の概要: Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books
- arxiv url: http://arxiv.org/abs/2506.01796v1
- Date: Mon, 02 Jun 2025 15:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.770086
- Title: Read it in Two Steps: Translating Extremely Low-Resource Languages with Code-Augmented Grammar Books
- Title(参考訳): 2つのステップで読む: コード拡張文法の本で極端に低リソースの言語を翻訳する
- Authors: Chen Zhang, Jiuheng Lin, Xiao Liu, Zekai Zhang, Yansong Feng,
- Abstract要約: 本稿では,文法規則検索と適用という2つの重要なステップに分解することで,極めて低リソースな言語を翻訳する上での文法書の役割について検討する。
実験の結果,コードルールの使用はルール検索と適用の両方を大幅に促進し,最終的に13.1%のBLEU翻訳の改善が得られた。
- 参考スコア(独自算出の注目度): 30.608065466078227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While large language models (LLMs) have shown promise in translating extremely low-resource languages using resources like dictionaries, the effectiveness of grammar books remains debated. This paper investigates the role of grammar books in translating extremely low-resource languages by decomposing it into two key steps: grammar rule retrieval and application. To facilitate the study, we introduce ZhuangRules, a modularized dataset of grammar rules and their corresponding test sentences. Our analysis reveals that rule retrieval constitutes a primary bottleneck in grammar-based translation. Moreover, although LLMs can apply simple rules for translation when explicitly provided, they encounter difficulties in handling more complex rules. To address these challenges, we propose representing grammar rules as code functions, considering their similarities in structure and the benefit of code in facilitating LLM reasoning. Our experiments show that using code rules significantly boosts both rule retrieval and application, ultimately resulting in a 13.1% BLEU improvement in translation.
- Abstract(参考訳): 大規模言語モデル (LLM) は辞書などのリソースを用いて非常に低リソースの言語を翻訳する可能性を示しているが、文法書の有効性については議論が続いている。
本稿では,文法規則検索と適用という2つの重要なステップに分解することで,極めて低リソースな言語を翻訳する上での文法書の役割について検討する。
そこで本研究では,文法規則とそれに対応するテスト文をモジュール化したデータセットであるZhuangRulesを紹介する。
分析の結果,規則検索は文法に基づく翻訳において主要なボトルネックとなっていることが明らかとなった。
さらに、LLMは、明示的に提供された場合、翻訳に単純な規則を適用することができるが、より複雑な規則を扱うのに苦労する。
これらの課題に対処するために, 文法規則をコード関数として表現することを提案する。
実験の結果,コードルールの使用はルール検索と適用の両方を大幅に促進し,最終的に13.1%のBLEU翻訳の改善が得られた。
関連論文リスト
- Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book? [6.905647501099997]
この翻訳能力の源泉について検討し,本書の並列例からほぼすべての改良点が得られた。
ネパール語とグアラニ語でも同様の結果が得られ、低リソース言語が見られた。
我々は,XLR言語におけるタスク適合データの重要性を強調した。
論文 参考訳(メタデータ) (2024-09-27T21:27:32Z) - Learning-From-Mistakes Prompting for Indigenous Language Translation [3.7790255156708397]
本稿では,低リソースの母国語翻訳を改善する手法を提案する。
我々のアプローチは、限られた数の並列翻訳例からなるデータストアの使用に基礎を置いています。
我々は、LLMをユニバーサルトランスレータとして使用するような設定において、LLMと文脈内学習技術のポテンシャルを利用する。
論文 参考訳(メタデータ) (2024-07-18T09:41:20Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。
これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。
認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Self-Augmented In-Context Learning for Unsupervised Word Translation [23.495503962839337]
大規模言語モデル (LLMs) は、強力な単語翻訳やバイリンガル語彙誘導(BLI)機能を示す。
教師なしBLIのための自己拡張型インコンテキスト学習(SAIL)を提案する。
提案手法は,2つの確立したBLIベンチマーク上でのLDMのゼロショットプロンプトよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T15:43:05Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Grammar Prompting for Domain-Specific Language Generation with Large
Language Models [40.831045850285776]
大規模言語モデル(LLM)は、コンテキスト内サンプルのごく一部から、幅広い自然言語タスクを実行することを学べる。
本稿では,LLMが外部知識やドメイン固有の制約を利用できるための簡単な手法であるEmphgrammar promptingを提案する。
論文 参考訳(メタデータ) (2023-05-30T17:26:01Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。