論文の概要: The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget
- arxiv url: http://arxiv.org/abs/2508.13666v1
- Date: Tue, 19 Aug 2025 09:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.871966
- Title: The Hidden Cost of Readability: How Code Formatting Silently Consumes Your LLM Budget
- Title(参考訳): 読みやすさの隠れたコスト:LLM予算の無駄な計算方法
- Authors: Dangfeng Pan, Zhensu Sun, Cenyuan Zhang, David Lo, Xiaoning Du,
- Abstract要約: コードフォーマッティングが大規模言語モデル(LLM)の性能と効率に与える影響を評価する。
主要な発見は、LLMがフォーマットされたコードと未フォーマットのコード間で性能を維持することができ、平均的な入力トークンの減少が24.5%に達することを示唆している。
書式処理のための双方向コード変換ツールを開発し,既存の推論にシームレスに統合できる。
- 参考スコア(独自算出の注目度): 13.419222464653425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Source code is usually formatted with elements like indentation and newlines to improve readability for human developers. However, these visual aids do not seem to be beneficial for large language models (LLMs) in the same way since the code is processed as a linear sequence of tokens. Furthermore, these additional tokens can lead to increased computational costs and longer response times for LLMs. If such formatting elements are non-essential to LLMs, we can reduce such costs by removing them from the code. To figure out the role played by formatting elements, we conduct a comprehensive empirical study to evaluate the impact of code formatting on LLM performance and efficiency. Through large-scale experiments on Fill-in-the-Middle Code Completion tasks across four programming languages (Java, Python, C++, C\#) and ten LLMs-including both commercial and open-source models-we systematically analyze token count and performance when formatting elements are removed. Key findings indicate that LLMs can maintain performance across formatted code and unformatted code, achieving an average input token reduction of 24.5\% with negligible output token reductions. This makes code format removal a practical optimization strategy for improving LLM efficiency. Further exploration reveals that both prompting and fine-tuning LLMs can lead to significant reductions (up to 36.1\%) in output code length without compromising correctness. To facilitate practical applications, we develop a bidirectional code transformation tool for format processing, which can be seamlessly integrated into existing LLM inference workflows, ensuring both human readability and LLM efficiency.
- Abstract(参考訳): ソースコードは通常、人間の開発者の可読性を改善するために、インデンテーションや新規性といった要素でフォーマットされる。
しかしながら、これらの視覚的補助は、コードがトークンの線形シーケンスとして処理されるため、大きな言語モデル(LLM)にも、同じように有益とは思えない。
さらに、これらの追加トークンは計算コストが増加し、LLMの応答時間が長くなる可能性がある。
もしそのようなフォーマット要素が LLM に必須でないなら、コードからそれらを取り除くことで、そのようなコストを削減することができる。
コードフォーマットがLCMの性能と効率に与える影響を評価するための総合的な実証的研究を行う。
4つのプログラミング言語(Java, Python, C++, C\#)と10のLLM(商用モデルとオープンソースモデルを含む)にわたるFill-in-the-Middle Code Completionタスクの大規模な実験を通じて、我々は、要素のフォーマットが削除されたときのトークン数とパフォーマンスを体系的に分析した。
鍵となる発見は、LLMがフォーマットされたコードと未フォーマットのコード間で性能を維持することができ、平均入力トークンの24.5\%を無視可能な出力トークンの削減で達成できることを示している。
これにより、コードフォーマットの削除がLLM効率を改善するための実用的な最適化戦略となる。
さらなる調査により、プロンプトと微調整の両方で出力コード長の大幅な削減(最大36.1\%)を、正確性を損なうことなく達成できることが判明した。
そこで我々は,書式処理のための双方向コード変換ツールを開発し,既存のLLM推論ワークフローにシームレスに統合し,人間の読みやすさとLLM効率の両立を保証した。
関連論文リスト
- CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt [3.2047924365529026]
本稿では,テキスト分類問題をコード補完タスクに変換するCode Completion Prompt (CoCoP)法を提案する。
CoCoPは、LLMのコード補完機能を利用することで、多様なデータセット間でのテキスト分類性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T19:12:02Z) - RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - An Effective Approach to Embedding Source Code by Combining Large Language and Sentence Embedding Models [6.976968804436321]
本稿では,大言語と文埋め込みモデルを組み合わせた新しいソースコード埋め込み手法を提案する。
提案手法の性能を評価するため,異なるプログラミング言語を用いた3つのデータセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - A Performance Study of LLM-Generated Code on Leetcode [1.747820331822631]
本研究では,Large Language Models (LLM) によるコード生成の効率性を評価する。
モデル温度や成功率などの要因とコード性能への影響を考慮し、18個のLLMを比較した。
LLMは、人間によって書かれたコードよりも平均的に、より効率的なコードを生成することができる。
論文 参考訳(メタデータ) (2024-07-31T13:10:03Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.418844515095035]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
不正確なトークン化は、LLMが入力を正確に理解するのを妨げている臨界点である。
我々は, LLMのトークン化に挑戦するために, 様々なオープンソースLLMの語彙をベースとして, $textbfADT (Adrial dataset for Tokenizer)$という逆データセットを構築した。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。