論文の概要: Minimal-Edit Instruction Tuning for Low-Resource Indic GEC
- arxiv url: http://arxiv.org/abs/2512.00219v1
- Date: Fri, 28 Nov 2025 21:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.118852
- Title: Minimal-Edit Instruction Tuning for Low-Resource Indic GEC
- Title(参考訳): 低リソースインデックスGECのための最小編集インストラクションチューニング
- Authors: Akhil Rajeev P,
- Abstract要約: Indic言語の文法的誤り訂正は、限られた監督、多種多様なスクリプト、豊富な形態に直面する。
命令調整された大規模言語モデルと保守的復号化を用いた拡張不要なセットアップを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grammatical error correction for Indic languages faces limited supervision, diverse scripts, and rich morphology. We propose an augmentation-free setup that uses instruction-tuned large language models and conservative decoding. A 12B GEMMA 3 model is instruction-tuned in bnb 4-bit precision with parameter-efficient fine-tuning (PEFT) and Alpaca-style formatting. Decoding follows a deterministic, constraint-aware procedure with a lightweight normaliser that encourages minimal, meaning-preserving edits. We operationalise inference, subsequent to instruction fine-tuning (IFT), via a fixed, language-specific prompt directly synthesised from a deterministic error classifier's taxonomy, label distributions, and precedence ordering computed on the training corpus. Under the official untuned GLEU evaluation, the system scores 92.41 on Malayalam, sixth overall, and 81.44 on Hindi, third overall. These results indicate that classifier-informed prompt design, adapter-based instruction tuning, and deterministic decoding provide a reproducible and a computationally efficient alternative to augmentation-centred pipelines for Indic GEC. The approach also motivates future work on stronger morphosyntactic constraints and human-centred evaluation of conservative edits.
- Abstract(参考訳): Indic言語の文法的誤り訂正は、限られた監督、多種多様なスクリプト、豊富な形態に直面する。
命令調整された大規模言語モデルと保守的復号化を用いた拡張不要なセットアップを提案する。
12B GEMMA 3モデルは、パラメータ効率の良い微細チューニング(PEFT)とAlpacaスタイルのフォーマットでbnb 4ビット精度で命令調整される。
復号化は、最小限の意味保存編集を促進する軽量な正規化器を備えた決定論的で制約対応の手順に従う。
我々は、決定論的誤り分類器の分類、ラベル分布、およびトレーニングコーパス上で計算された優先順序から直接合成された、固定された言語固有のプロンプトを介して、IFT(Inference fine-tuning)を演算する。
公式の未調整のGLEU評価では、システムはマラヤラムで92.41点、総合6位、ヒンディー語で81.44点、総合3位である。
これらの結果から,Indic GEC 用拡張中心パイプラインに対して,分類器インフォームド・プロンプト設計,アダプタベースの命令チューニング,決定論的復号化が再現可能で,計算的に効率的な代替手段となることが示唆された。
このアプローチはまた、より強力なモルフォシンタクティック制約と保守的な編集の人間中心評価に関する将来の研究を動機付けている。
関連論文リスト
- Automatic Syntax Error Repair for Discrete Controller Synthesis using Large Language Model [8.741815980649667]
本稿では,Large Language Models (LLMs) を利用してDCSモデルの構文誤りを修復する自動手法を提案する。
LLMには形式文法規則やイラストレーション例を含むDCS固有のドメイン知識が備わっており、正確な修正を導く。
人間の開発者に比べて3.46倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-08T07:57:15Z) - On the Effect of Instruction Tuning Loss on Generalization [22.288479270814484]
標準命令チューニング損失は、しばしばサブ最適性能と、インプット・インプット・インプット・インプット・インプット・インプット・インプットのロバスト性に制限されることを示す。
プロンプトトークンに対する低から高への重みと応答トークンに対する中から高への重みが組み合わさって、設定全体にわたって最高のパフォーマンスモデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-07-10T14:46:33Z) - MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
Unicode符号化は、新しい言語でも未知の単語の出現を排除し、各文字を特定のバイトにマッピングする。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本研究では,コンテキスト化エキスパートとして扱われる注意ヘッドを適応的に選択・混合する,コンテキスト化エキスパートの混合(MoCE)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Selective Generation for Controllable Language Models [19.909671258499184]
生成言語モデル(GLM)の信頼性は、重要な意思決定システムへの展開において不可欠である。
テキストエンタテインメント関係(FDR-E)に関して、偽発見率を制御する2つの選択的生成アルゴリズムを提案する。
選択予測を直接修正した$textttSGentextttSup$は、人間によって注釈付けされたエンテーメントラベル付きデータを悪用する。
人間のアノテーションはコストがかかるので、unを完全に活用した半教師付きバージョンである$textttSGentexttSemi$を提案します。
論文 参考訳(メタデータ) (2023-07-18T13:36:24Z) - Dancing Between Success and Failure: Edit-level Simplification
Evaluation using SALSA [21.147261039292026]
編集ベースのヒューマンアノテーションフレームワークであるSALSAを紹介する。
我々は、成功と失敗の全範囲をカバーする、言語的に基礎付けられた20の編集タイプを開発する。
LENS-SALSAは,文品質と単語品質を同時に予測するために訓練された,参照不要な自動単純化指標である。
論文 参考訳(メタデータ) (2023-05-23T18:30:49Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - GrIPS: Gradient-free, Edit-based Instruction Search for Prompting Large
Language Models [80.03815493269522]
GrIPSは、大規模言語モデルのタスク命令を改善するための、勾配のない編集ベースの検索手法である。
InstructGPTモデルでは、GrIPSは8つの分類タスクの平均タスク性能を最大4.30ポイント改善する。
編集は命令を単純化し、時には不整合化しますが、それでも精度は向上します。
論文 参考訳(メタデータ) (2022-03-14T16:54:46Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。