論文の概要: The Impact of Editorial Intervention on Detecting Native Language Traces
- arxiv url: http://arxiv.org/abs/2605.10216v1
- Date: Mon, 11 May 2026 08:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.670886
- Title: The Impact of Editorial Intervention on Detecting Native Language Traces
- Title(参考訳): 編集介入がネイティブ言語トレースの検出に及ぼす影響
- Authors: Ahmet Yavuz Uluslu, Mark Gales, Kate Knill, Gerold Schneider,
- Abstract要約: ネイティブ言語識別(NLI、Native Language Identification)は、著者のネイティブ言語(L1)をネイティブでない文章から判断するタスクである。
人間とAIの共著者の出現により、非ネイティブテキストは大規模言語モデルによって定期的に修正され書き直される。
編集介入の度合いが高まる中でL1トレースの堅牢性について検討した。
- 参考スコア(独自算出の注目度): 1.6210510806456278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Native Language Identification (NLI) is the task of determining an author's native language (L1) from their non-native writings. With the advent of human-AI co-authorship, non-native texts are routinely corrected and rewritten by large language models, fundamentally altering the linguistic features NLI models depend on. In this paper, we investigate the robustness of L1 traces across increasing degrees of editorial intervention. By processing 450 essays from the Write & Improve 2024 corpus through varying levels of grammatical error correction (GEC) and paraphrasing, we demonstrate that L1 attribution does not entirely depend on surface-level errors. Instead, the detection models leverage deeper L1 features: unidiomatic lexico-semantic choices, pragmatic transfer, and the author's underlying cultural perspective. We find that minimal edits preserve these structural traces and maintain high profiling accuracy. In contrast, fluency edits and paraphrasing normalize these L1 features, leading to a severe degradation in performance.
- Abstract(参考訳): ネイティブ言語識別(NLI、Native Language Identification)は、著者のネイティブ言語(L1)をネイティブでない文章から判断するタスクである。
人間とAIの共著者の出現により、非ネイティブテキストは大きな言語モデルによって日常的に修正され書き直され、NLIモデルが依存する言語的特徴を根本的に変える。
本稿では,編集介入の度合いが高まる中で,L1トレースの堅牢性について検討する。
2024コーパスからの450のエッセイを文法的誤り訂正(GEC)とパラフレージングによって処理することにより、L1の帰属は表面レベルの誤りに完全に依存していないことを示す。
代わりに、検出モデルはL1のより深い特徴、すなわち、一音階のレキシコ・セマンティックな選択、プラグマティック・トランスファー、そして著者の根底にある文化的視点を利用する。
最小限の編集はこれらの構造的トレースを保持し、高いプロファイリング精度を維持する。
対照的に、流布編集と言い換えはこれらのL1特徴を正規化し、性能が著しく低下する。
関連論文リスト
- RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts [1.4837169131671546]
L1干渉は、スタジアムの代わりにスタディオンを使用するなど、話者の第一言語に影響された誤りを指す。
18,000以上の文からなる大規模データセットであるRILECを導入し、REALECのエキスパートアノテートデータとルールベースおよびニューラル拡張によって生成された合成例を組み合わせる。
本稿では,PPO,プロンプトベース制御,ルールベースパターンを最適化した生成言語モデルを用いて,L1モチベーション付きエラーを生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T22:33:22Z) - Robust Native Language Identification through Agentic Decomposition [23.899157231471104]
大規模言語モデル(LLM)は、表面的な文脈的手がかりを利用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
このような戦略は信頼できないことを示し、モデル予測は誤解を招くヒントによって容易に変更可能であることを示す。
専門エージェントが多種多様な言語的証拠を蓄積・分類する,法医学的言語学にヒントを得たエージェントNLIパイプラインを導入する。
論文 参考訳(メタデータ) (2025-09-20T12:38:03Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Turkish Native Language Identification V2 [1.7802147489386628]
本稿では,トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
我々はアルバニア語、アラビア語、ペルシア語の母語話者によって書かれたテキストのコーパスを分析する。
我々のモデルは有望な結果を得ることができ、最も予測可能な特徴を分析してL1特異的な伝達効果を明らかにする。
論文 参考訳(メタデータ) (2023-07-27T13:28:31Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。