論文の概要: Optimizing Korean-Centric LLMs via Token Pruning
- arxiv url: http://arxiv.org/abs/2604.16235v1
- Date: Fri, 17 Apr 2026 16:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.012265
- Title: Optimizing Korean-Centric LLMs via Token Pruning
- Title(参考訳): Token Pruning による韓国・中国LLMの最適化
- Authors: Hoyeol Kim, Hyeonwoo Kim,
- Abstract要約: トークンプルーニング(英: token pruning)は、ターゲットアプリケーションとは無関係な言語に対応するトークンとパラメータを埋め込む圧縮技術である。
Qwen3, Gemma-3, Llama-3, Ayaなどのアーキテクチャを3つの語彙構成で評価した。
- 参考スコア(独自算出の注目度): 6.029880646740327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a systematic benchmark of state-of-the-art multilingual large language models (LLMs) adapted via token pruning - a compression technique that eliminates tokens and embedding parameters corresponding to languages irrelevant to the target application. Focusing on Korean-centric natural language processing (NLP) tasks, we evaluate architectures including Qwen3, Gemma-3, Llama-3, and Aya across three vocabulary configurations: Original, English-Korean (EnKo), and English-Korean-Chinese (EnKoZh). Performance is assessed using established benchmarks for general aptitude, cultural literacy, instruction following, and machine translation. Our findings indicate that token pruning significantly improves generation stability by eliminating language confusion, and in the case of machine translation, frequently enhances performance on Korean-specific tasks. While instruction-following capabilities display architecture-dependent variance linked to latent cross-lingual representations, the significant reduction in vocabulary size validates token pruning as a highly effective optimization strategy for memory-constrained, domain-specific deployments, despite modest gains in inference latency.
- Abstract(参考訳): 本稿では,トークンプルーニングにより適応した多言語多言語言語モデル (LLM) の体系的ベンチマークについて述べる。
韓国中心の自然言語処理(NLP)タスクに着目し,Qwen3,Gemma-3,Llama-3,Ayaなどのアーキテクチャを,原語,英語・韓国語(EnKo),英語・韓国語(EnKoZh)の3つの語彙構成で評価した。
性能は、一般的な適性、文化的リテラシー、指示に従うこと、機械翻訳のための確立されたベンチマークを用いて評価される。
本研究は,トークンプルーニングが言語混乱を解消し,生成安定性を著しく向上することを示し,機械翻訳の場合,韓国固有のタスクの性能向上が頻繁に行われている。
命令追従機能は、潜在言語間表現に関連付けられたアーキテクチャ依存の分散を示すが、語彙サイズの大幅な削減は、推論レイテンシがわずかに向上したにもかかわらず、メモリ制限されたドメイン固有のデプロイメントに対して、非常に効果的な最適化戦略としてトークンプルーニングを検証する。
関連論文リスト
- Edit Once, Update Everywhere: A Simple Framework for Cross-Lingual Knowledge Synchronization in LLMs [60.12222055772508]
我々は、シンプルで実用的なSOTAレシピであるクロス言語知識民主主義編集(X-KDE)を提案する。
X-KDEは、支配的な言語から他の言語への知識の伝達を効果的に行うように設計されている。
Bi-ZsRE と MzsRE のベンチマーク実験により、X-KDE は言語間性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-20T15:32:31Z) - Language Fusion for Parameter-Efficient Cross-lingual Transfer [21.96231169571248]
Fusion forLanguage Representations (FLARE)は、英語以外の言語における表現品質と下流のパフォーマンスを向上させる新しい手法である。
FLAREは、低ランク (LoRA) アダプタ内でのソースおよびターゲット言語表現を、軽量線形変換を用いて統合する。
FLAREの有効性を実証するためには、自然言語推論、質問応答、感情分析など、言語横断の自然言語理解タスクにまたがる一連の実験がある。
論文 参考訳(メタデータ) (2025-01-12T18:02:29Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。