論文の概要: Adapting Multilingual Models to Code-Mixed Tasks via Model Merging
- arxiv url: http://arxiv.org/abs/2510.19782v1
- Date: Wed, 22 Oct 2025 17:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.222395
- Title: Adapting Multilingual Models to Code-Mixed Tasks via Model Merging
- Title(参考訳): モデルマージによるコードミキシングタスクへの多言語モデルの適用
- Authors: Prashant Kodali, Vaishnavi Shivkumar, Swarang Joshi, Monojit Choudhary, Ponnurangam Kumaraguru, Manish Shrivastava,
- Abstract要約: 我々は,コード混合NLPの従来の適応戦略の代替として,モデルマージについて検討した。
我々は,XLM-RとLlama-3.2-1Bモデルを用いて,英語・ヒンディー語(En-Hi)と英語・スペイン語(En-Es)の文分類(センチメントとヘイトスピーチ)課題に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 9.620539727633274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study model merging as a practical alternative to conventional adaptation strategies for code-mixed NLP. Starting from a multilingual base model, we: (i) perform continued pre-training (CPT) on unlabeled code-mixed text to obtain an adapted checkpoint, (ii) merge checkpoint with the base model, and (iii) fine-tune (FT) on the downstream task data. We evaluate our approach for sentence classification (sentiment and hate speech) task in English-Hindi (En-Hi) and English-Spanish (En-Es) using XLM-R and Llama-3.2-1B models. Our results show that merged models consistently outperform full fine-tuning and CPT->FT. We observe gains of 2--5 points in F1 over full fine-tuning and ~1-2 points over CPT->FT, indicating that unlabeled data is leveraged more effectively via merging than via CPT alone. Zero-/few-shot prompting with larger LLMs (e.g., Llama-3.3-70B) lags behind fine-tuned and merged checkpoints, underscoring limits of in-context learning for code-mixed inputs. We further test cross-pair transfer by training on En-Hi and evaluating on En-Ta and En-Ml: merged checkpoints transfer more strongly than monolingual-English baselines (e.g., TV/TIES variants reaching 0.65-0.68 F1 vs 0.61-0.63 for full fine-tuning), suggesting that code-mixed knowledge is a more reliable substrate for low-resource pairs. We conclude with adaptation recipes matched to common data regimes (labeled only; labeled+unlabeled; transfer-only) and discuss limitations and scaling considerations for broader tasks and larger models.
- Abstract(参考訳): 我々は,コード混合NLPの従来の適応戦略の代替として,モデルマージについて検討した。
多言語ベースモデルから始めると、
i)未ラベルのコード混合テキスト上で継続事前学習(CPT)を行い、適応されたチェックポイントを得る。
(ii)チェックポイントをベースモデルとマージし、
(iii)下流タスクデータ上のファインチューン(FT)。
我々は,XLM-RとLlama-3.2-1Bモデルを用いて,英語・ヒンディー語(En-Hi)と英語・スペイン語(En-Es)の文分類(センチメントとヘイトスピーチ)課題に対するアプローチを評価する。
その結果,統合モデルの方が完全微調整とCPT->FTを一貫して上回っていることがわかった。
CPT->FTでF1の2~5点,CPT->FTで約1~2点の利得を観測したところ,CPT単独で行う場合よりも,ラベルなしのデータをマージすることでより効果的に活用できることが示唆された。
ゼロショットはLLM(例えばLlama-3.3-70B)が微調整されたチェックポイントとマージされたチェックポイントの遅れを伴い、コードミックス入力のコンテキスト内学習の限界を減らした。
本稿では,En-Hi のトレーニングと En-Ta と En-Ml の併用によるクロスペアトランスファーの検証を行う。例えば,TV/TIES 変種は 0.65-0.68 F1 に対して 0.61-0.63 である。
我々は、一般的なデータ構造(ラベル付き、ラベル付き+ラベル付き、転送専用)に適合する適応レシピを結論付け、より広範なタスクやより大きなモデルに対する制限とスケーリングの考慮について論じる。
関連論文リスト
- XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Parameter-Efficient Checkpoint Merging via Metrics-Weighted Averaging [2.9761595094633435]
チェックポイントマージ(Checkpoint merging)は、複数のモデルスナップショットを1つの優れたモデルに組み合わせるテクニックである。
本稿では,パラメータ効率のよい微調整の文脈におけるチェックポイントのマージについて検討する。
本稿では,パラメータの重み付けによるモデルチェックポイントのマージにMWA(Metrics-Weighted Averaging)を提案する。
論文 参考訳(メタデータ) (2025-04-23T05:11:21Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Entity Matching using Large Language Models [3.7277730514654555]
本稿では, PLM ベースのマーカに代わる, タスク固有の訓練データ依存モデルとして, LLM (Generative Large Language Model) を用いて検討する。
GPT4は一致判定のための構造化された説明を生成でき、一致した誤りの原因を自動的に特定できることを示す。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。