論文の概要: Evaluating In-Context Translation with Synchronous Context-Free Grammar Transduction
- arxiv url: http://arxiv.org/abs/2604.07320v1
- Date: Wed, 08 Apr 2026 17:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.658877
- Title: Evaluating In-Context Translation with Synchronous Context-Free Grammar Transduction
- Title(参考訳): 同期文脈自由文法変換を用いた文脈内翻訳の評価
- Authors: Jackson Petty, Jaulie Goe, Tal Linzen,
- Abstract要約: 低リソース言語は大きな言語モデル(LLM)を用いた機械翻訳に挑戦する
形式言語のペアを定義する同期文脈自由文法を構築した。
LLMが文法とソース言語文の両方を与えられたとき、ある形式言語から別の形式言語への文の翻訳にどの程度役立つかを計測する。
- 参考スコア(独自算出の注目度): 17.60599688606413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource languages pose a challenge for machine translation with large language models (LLMs), which require large amounts of training data. One potential way to circumvent this data dependence is to rely on LLMs' ability to use in-context descriptions of languages, like textbooks and dictionaries. To do so, LLMs must be able to infer the link between the languages' grammatical descriptions and the sentences in question. Here we isolate this skill using a formal analogue of the task: string transduction based on a formal grammar provided in-context. We construct synchronous context-free grammars which define pairs of formal languages designed to model particular aspects of natural language grammar, morphology, and written representation. Using these grammars, we measure how well LLMs can translate sentences from one formal language into another when given both the grammar and the source-language sentence. We vary the size of the grammar, the lengths of the sentences, the syntactic and morphological properties of the languages, and their written script. We note three key findings. First, LLMs' translation accuracy decreases markedly as a function of grammar size and sentence length. Second, differences in morphology and written representation between the source and target languages can strongly diminish model performance. Third, we examine the types of errors committed by models and find they are most prone to recall the wrong words from the target language vocabulary, hallucinate new words, or leave source-language words untranslated.
- Abstract(参考訳): 低リソース言語は、大量のトレーニングデータを必要とする大規模言語モデル(LLM)による機械翻訳に挑戦する。
このデータ依存を回避するための潜在的な方法の1つは、教科書や辞書のような言語のテキスト内記述を使用するLLMの能力に依存することである。
そのために、LLMは言語の文法記述と問題の文とのリンクを推測しなければなりません。
ここでは、このスキルをタスクの形式的類似体を用いて分離する。
本研究では, 自然言語文法, 形態学, 記述表現の特定の側面をモデル化するための形式言語対を定義する同期文脈自由文法を構築した。
これらの文法を用いて、文法とソース言語文の両方を与えられた場合、LLMが1つの形式言語から別の形式言語への文の翻訳にどの程度優れているかを計測する。
我々は文法のサイズ、文の長さ、言語の統語的・形態的特性、およびそれらの書体によって異なる。
主な発見は3つある。
まず、LLMの翻訳精度は文法サイズと文長の関数として著しく低下する。
第二に、ソースとターゲット言語間の形態学と記述表現の違いは、モデル性能を著しく低下させる可能性がある。
第三に、モデルが犯した誤りの種類を調べ、ターゲット言語の語彙から間違った単語を思い出したり、新しい単語を幻覚させたり、ソース語が翻訳されないままにしておくのが最も困難であることを示す。
関連論文リスト
- LingGym: How Far Are LLMs from Thinking Like Field Linguists? [20.482844306874743]
本稿ではLingGymについて紹介する。LingGymはメタ言語推論のためのLLMの能力を評価する新しいベンチマークである。
制御された評価タスク:Word-Gloss Inferenceでは、モデルが文脈から欠落した単語と光沢を推測しなければならない。
その結果,構造化言語的手がかりを取り入れることで,全てのモデルにおける推論性能が一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-11-01T00:59:13Z) - Can LLMs Help Create Grammar?: Automating Grammar Creation for Endangered Languages with In-Context Learning [0.0]
本稿では,Large Language Models (LLMs) が低リソース言語に対して限られたデータ量で文法情報を生成するのにどのように役立つかを検討する。
提案手法では,既存の言語データを整理し,形式的XLE文法を効率的に生成できるようにする。
本研究は,LLMが言語文書作成の取り組みを強化し,言語データの生成に費用対効果のあるソリューションを提供し,絶滅危惧言語の保存に寄与する可能性を明らかにする。
論文 参考訳(メタデータ) (2024-12-14T20:43:12Z) - Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book? [6.905647501099997]
この翻訳能力の源泉について検討し,本書の並列例からほぼすべての改良点が得られた。
ネパール語とグアラニ語でも同様の結果が得られ、低リソース言語が見られた。
我々は,XLR言語におけるタスク適合データの重要性を強調した。
論文 参考訳(メタデータ) (2024-09-27T21:27:32Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。