論文の概要: RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts
- arxiv url: http://arxiv.org/abs/2603.07366v1
- Date: Sat, 07 Mar 2026 22:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.324371
- Title: RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts
- Title(参考訳): RILEC:英語学習テキストにおけるL1ロシアの干渉誤りの検出と生成
- Authors: Darya Kharlamova, Irina Proskurina,
- Abstract要約: L1干渉は、スタジアムの代わりにスタディオンを使用するなど、話者の第一言語に影響された誤りを指す。
18,000以上の文からなる大規模データセットであるRILECを導入し、REALECのエキスパートアノテートデータとルールベースおよびニューラル拡張によって生成された合成例を組み合わせる。
本稿では,PPO,プロンプトベース制御,ルールベースパターンを最適化した生成言語モデルを用いて,L1モチベーション付きエラーを生成するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.4837169131671546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many errors in student essays can be explained by influence from the native language (L1). L1 interference refers to errors influenced by a speaker's first language, such as using stadion instead of stadium, reflecting lexical transliteration from Russian. In this work, we address the task of detecting such errors in English essays written by Russian-speaking learners. We introduce RILEC, a large-scale dataset of over 18,000 sentences, combining expert-annotated data from REALEC with synthetic examples generated through rule-based and neural augmentation. We propose a framework for generating L1-motivated errors using generative language models optimized with PPO, prompt-based control, and rule-based patterns. Models fine-tuned on RILEC achieve strong performance, particularly on word-level interference types such as transliteration and tense semantics. We find that the proposed augmentation pipeline leads to a significant performance improvement, making it a potentially valuable tool for learners and teachers to more effectively identify and address such errors.
- Abstract(参考訳): 学生エッセイにおける多くの誤りは、母国語の影響(L1)によって説明できる。
L1干渉(L1 interference)とは、ロシア語からの語彙の翻訳を反映してスタジアムの代わりにスタディオンを使用するなど、話者の第一言語に影響された誤りを指す。
本研究では,ロシア語学習者による英語エッセイにおいて,このような誤りを検知する作業に対処する。
18,000以上の文からなる大規模データセットであるRILECを導入し、REALECのエキスパートアノテートデータとルールベースおよびニューラル拡張によって生成された合成例を組み合わせる。
本稿では,PPO,プロンプトベース制御,ルールベースパターンを最適化した生成言語モデルを用いて,L1モチベーション付きエラーを生成するフレームワークを提案する。
RILECで微調整されたモデルは、特に音読や時制のセマンティクスといった単語レベルの干渉タイプにおいて、強い性能を達成する。
提案した拡張パイプラインは,大幅な性能向上をもたらし,学習者や教師がこのようなエラーをより効果的に識別し,対処する上で有用なツールである可能性が示唆された。
関連論文リスト
- Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - FEANEL: A Benchmark for Fine-Grained Error Analysis in K-12 English Writing [68.23874413455594]
本稿では,英語学習者のための細粒度誤り解析(FEANEL)ベンチマークを提案する。
ベンチマークは、小学生と中学生が書いた1000のエッセイから成っている。
各エラーは言語教育の専門家によって注釈付けされ、彼らが共同開発した音声に基づく分類法を用いて、タイプ、重大度、説明的フィードバックによって分類される。
論文 参考訳(メタデータ) (2025-11-28T05:17:45Z) - Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。
誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。
モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文 参考訳(メタデータ) (2024-10-09T16:51:21Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - BiPhone: Modeling Inter Language Phonetic Influences in Text [12.405907573933378]
テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。
そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。
本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。
これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
論文 参考訳(メタデータ) (2023-07-06T22:31:55Z) - Learning from Mistakes via Cooperative Study Assistant for Large
Language Models [17.318591492264023]
大規模言語モデル(LLM)は、自身のフィードバックに基づいて、その世代を洗練させる可能性を実証している。
SALAM(Studio Assistant for Large Language Model)は,ミスから学習する上で,主要なLLMを支援するための補助エージェントを備えた新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-23T08:51:08Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。