論文の概要: Compressed code: the hidden effects of quantization and distillation on programming tokens
- arxiv url: http://arxiv.org/abs/2601.02563v1
- Date: Mon, 05 Jan 2026 21:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.727191
- Title: Compressed code: the hidden effects of quantization and distillation on programming tokens
- Title(参考訳): 圧縮符号:量子化と蒸留がプログラミングトークンに及ぼす影響
- Authors: Viacheslav Siniaev, Iaroslav Chelombitko, Aleksey Komissarov,
- Abstract要約: 大規模言語モデル(LLM)は例外的なコード生成機能を示しているが、トークンレベルのメカニズムはいまだ検討されていない。
本稿では,明示的なプロンプトを必要とせず,モデル行動に関する洞察を提供する,新しいコールドスタート確率解析手法を提案する。
本稿では,異なるモデル最適化手法がトークンレベルの表現とコード生成品質にどのように影響するかを包括的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional code generation capabilities, yet their token-level mechanisms remain underexplored, particularly in compressed models. Through systematic analysis of programming language token representations, we characterize how programming languages are encoded in LLM tokenizers by analyzing their vocabulary distribution and keyword coverage patterns. We introduce a novel cold-start probability analysis method that provides insights into model behavior without requiring explicit prompts. Additionally, we present a comprehensive evaluation of how different model optimization techniques - including quantization, distillation, model scaling, and task-specific fine-tuning - affect token-level representations and code generation quality. Our experiments, supported by comprehensive probability distribution analysis and evaluation metrics, reveal critical insights into token-level behavior and provide empirically-validated guidelines for maintaining code generation quality under various optimization constraints. These findings advance both theoretical understanding of LLM code generation and practical implementation of optimized models in production environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、例外的なコード生成能力を示しているが、トークンレベルのメカニズムは、特に圧縮モデルでは未探索のままである。
プログラミング言語のトークン表現の体系的解析を通じて,プログラミング言語の語彙分布とキーワードカバレッジパターンを解析し,LLMトークン化にどのように符号化されているかを特徴付ける。
本稿では,明示的なプロンプトを必要とせず,モデル行動に関する洞察を提供する,新しいコールドスタート確率解析手法を提案する。
さらに、量子化、蒸留、モデルスケーリング、タスク固有の微調整など、異なるモデルの最適化手法がトークンレベルの表現やコード生成品質にどのように影響するかを包括的に評価する。
総合的な確率分布分析と評価指標によって支援された我々の実験は、トークンレベルの振る舞いに対する重要な洞察を明らかにし、様々な最適化制約の下でコード生成品質を維持するための実証的検証されたガイドラインを提供する。
これらの知見は、LLMコード生成の理論的理解と、生産環境における最適化モデルの実践的実装の両方を前進させる。
関連論文リスト
- How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis [0.0]
その重要性にもかかわらず、アセンブリコードのコンテキストにおけるトークン化は未探索領域のままである。
我々は、アセンブリコードのユニークな特徴に合わせて、プリプロセスのカスタマイズオプションとプリトークン化ルールについて検討する。
我々は,トークン化効率,語彙圧縮,組立符号の表現忠実度に基づくトークン化器の比較を行った。
論文 参考訳(メタデータ) (2025-11-05T19:45:26Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文 参考訳(メタデータ) (2025-03-21T01:00:45Z) - LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。
まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。
本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文 参考訳(メタデータ) (2024-05-21T15:13:12Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。