論文の概要: Mechanisms are Transferable: Data-Efficient Low-Resource Adaptation via Circuit-Targeted Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.08146v1
- Date: Tue, 13 Jan 2026 02:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.02005
- Title: Mechanisms are Transferable: Data-Efficient Low-Resource Adaptation via Circuit-Targeted Supervised Fine-Tuning
- Title(参考訳): データ効率のよい低リソース適応のための回路追従型微調整機構
- Authors: Khumaisa Nur'aini, Ayu Purwarianti, Alham Fikri Aji, Derry Wijaya,
- Abstract要約: CD-T (Contextual Decomposition Transformer) の非実効的適応であるCT-SFT(Circuit-Targeted Supervised Fine-Tuning)
CT-SFTは、プロキシ言語チェックポイント内のタスク関連アテンションヘッドのスパースセットを特定し、それらのヘッドのみを更新してターゲット言語に変換する。
より難しい転送は編集回路ヘッドを好むが、より簡単な転送は概してゼロに近い更新を好むことが多い。
- 参考スコア(独自算出の注目度): 20.952132221701927
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting LLMs to low-resource languages is difficult: labeled data is scarce, full-model fine-tuning is unstable, and continued cross-lingual tuning can cause catastrophic forgetting. We propose Circuit-Targeted Supervised Fine-Tuning (CT-SFT): a counterfactual-free adaptation of CD-T (Contextual Decomposition Transformer) that uses a label-balanced mean baseline and task-directional relevance scoring to identify a sparse set of task-relevant attention heads in a proxy-language checkpoint, then transfer learns to a target language by updating only those heads (plus LayerNorm) via head-level gradient masking. Across NusaX-Senti and XNLI, CT-SFT improves cross-lingual accuracy over continued full fine-tuning while updating only a small subset of model parameters. We find an editing-preserving trade-off: harder transfers favor editing circuit heads, while easier transfers often favor near-zero (i.e., low-relevance heads) updates, preserving the source mechanism. CT-SFT also substantially reduces catastrophic forgetting, preserving proxy/source-language competence during transfer.
- Abstract(参考訳): ラベル付きデータが不足し、フルモデルの微調整が不安定で、言語間調整が続くと、破滅的な忘れがちになる。
本稿では,ラベルバランスの平均基準値とタスク指向性スコアを用いたCD-T (Contextual Decomposition Transformer) の反ファクトフリー適応手法であるCircuit-Targeted Supervised Fine-Tuning (CT-SFT)を提案する。
NusaX-Senti と XNLI 全体では、CT-SFT はモデルパラメータの小さなサブセットだけを更新しながら、連続したフルチューニングよりも言語間精度を向上させる。
より難しい転送は編集回路ヘッドを好むが、より簡単な転送は概ゼロ(低関連ヘッド)の更新を好んで、ソースメカニズムを保存する。
CT-SFTは、転送中にプロキシ/ソース言語能力を保持する破滅的な忘れ込みを著しく減少させる。
関連論文リスト
- HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer [26.0360791797671]
DeFT-X(DeFT-X)は,事前学習したモデルの重み行列を大まかに刈り取る新しい構成可能なSFT手法である。
感情分類(NusaX)と自然言語推論(AmericasNLI)のための多種多様な低リソース言語上でDeFT-Xを評価する。
論文 参考訳(メタデータ) (2025-05-21T04:20:30Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Soft Prompt Tuning for Cross-Lingual Transfer: When Less is More [9.230338573494622]
SPT(Soft Prompt Tuning)は、事前訓練された言語モデルを特定のタスクに適応するためのパラメータ効率のよい手法である。
本稿では,言語間移動におけるSPTの可能性について検討する。
論文 参考訳(メタデータ) (2024-02-06T07:52:30Z) - Powerful and Extensible WFST Framework for RNN-Transducer Losses [71.56212119508551]
本稿では,RNN-Transducer (RNN-T) の損失に対する修正の簡易化を目的として,WFST (Weighted Finite-State Transducer) に基づくフレームワークを提案する。
既存のRNN-Tのユースケース関連コードは、拡張とデバッグが難しい。
WFSTを利用したRNN-T実装として、"Compose-Transducer"と"Grid-Transducer"の2つを紹介する。
論文 参考訳(メタデータ) (2023-03-18T10:36:33Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。