論文の概要: Multi Language Models for On-the-Fly Syntax Highlighting
- arxiv url: http://arxiv.org/abs/2510.04166v1
- Date: Sun, 05 Oct 2025 11:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.498561
- Title: Multi Language Models for On-the-Fly Syntax Highlighting
- Title(参考訳): オンザフライ構文ハイライトのための多言語モデル
- Authors: Marco Edoardo Palma, Pooja Rani, Harald C. Gall,
- Abstract要約: 本稿では,最大6つの主流プログラミング言語を強調表示できる統一モデルを提案する。
デプロイメントの複雑さを6倍に減らし、目に見えない言語のパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 2.4216414826638353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syntax highlighting is a critical feature in modern software development environments, enhancing code readability and developer productivity. However, delivering accurate highlighting in real time remains challenging for online and web-based development tools due to strict time and memory constraints on backend services. These systems must serve highlights rapidly and frequently, even when code is partially valid or invalid. This has led to on-the-fly syntax highlighting, where visual annotations are generated just before content is served, often at high request rates and under incomplete input conditions. To meet these demands efficiently, state-of-the-art models use deep learning to learn the behavior of brute-force syntax highlighting resolvers, tools that are easy to implement but too slow for production. Through the Deep Abstraction process, brute-force strategies are encoded into fast statistical models that achieve both high accuracy and low-latency inference. Despite their success, such models face key challenges: they support only one programming language per model, require large datasets from slow brute-force generators, and involve resource-intensive training. In multi-language environments, this means maintaining multiple independent models, increasing system complexity and operational cost. This work addresses these issues by introducing a unified model capable of highlighting up to six mainstream programming languages, reducing deployment complexity by a factor of six and improving performance on unseen languages. A novel normalization technique significantly enhances model generalization, while few-shot learning experiments show that a small number of oracle samples can replace large datasets, minimizing dependence on brute-force generators. Combined, these innovations enable efficient, scalable, and cost-effective syntax highlighting across diverse programming languages.
- Abstract(参考訳): 構文強調表示は現代のソフトウェア開発環境において重要な機能であり、コードの可読性と開発者の生産性を向上させる。
しかし、バックエンドサービスに厳格な時間とメモリ制限があるため、オンラインおよびWebベースの開発ツールでは、リアルタイムに正確なハイライトを提供するのは難しい。
これらのシステムは、コードが部分的に有効または無効である場合でも、素早く頻繁にハイライトを提供する必要がある。
これはオンザフライの構文ハイライトにつながり、コンテンツが提供される直前に視覚的なアノテーションが生成され、しばしば要求率が高く、不完全な入力条件下で実行される。
これらの要求を効率的に満たすため、最先端のモデルはディープラーニングを使用して、ブルートフォース構文ハイライトリゾルバ(実装が容易だが運用には遅すぎるツール)の振る舞いを学習する。
Deep Abstractionプロセスを通じて、ブルートフォース戦略は高速な統計モデルに符号化され、高い精度と低レイテンシ推論の両方を達成する。
モデル毎にひとつのプログラミング言語しかサポートせず、遅いブルートフォースジェネレータからの大きなデータセットを必要とし、リソース集約的なトレーニングを伴います。
マルチ言語環境では、複数の独立したモデルを維持し、システムの複雑さと運用コストを増大させる。
この作業は、最大6つの主流プログラミング言語を強調表示できる統一モデルを導入し、デプロイの複雑さを6倍に減らし、目に見えない言語のパフォーマンスを向上させることで、これらの問題に対処する。
新たな正規化技術によりモデル一般化が大幅に向上する一方、少数の学習実験では、少数のオラクルサンプルが大規模なデータセットを置き換えることができ、ブルートフォースジェネレータへの依存を最小限に抑えることが示されている。
これらのイノベーションを組み合わせることで、様々なプログラミング言語にまたがる効率的でスケーラブルで費用対効果の高い構文が実現できます。
関連論文リスト
- Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - Deriving Coding-Specific Sub-Models from LLMs using Resource-Efficient Pruning [4.762390044282733]
大規模言語モデル(LLM)は、様々な複雑なコード生成タスクにおいて、その例外的な性能を実証している。
このような要求を緩和するために、モデルプルーニング技術は、パラメータが著しく少ないよりコンパクトなモデルを作成するために使用される。
本研究では,非構造化プルーニングによる符号化特化サブモデルの効率的な導出について検討する。
論文 参考訳(メタデータ) (2025-01-09T14:00:01Z) - Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - On-the-Fly Syntax Highlighting: Generalisation and Speed-ups [2.208443815105053]
オンザフライ構文強調は、視覚二次表記値を言語派生のそれぞれの文字と素早く関連付けるタスクである。
スピード制約はツールのユーザビリティを保証するために不可欠であり、オンラインソースコードにアクセスするエンドユーザの応答性を示す。
コードの理解力を高めるためには、正確なハイライトを達成することが重要です。
このようなリゾルバの開発コストに対処することは、多くのプログラミング言語のバージョンを考えると必須である。
論文 参考訳(メタデータ) (2024-02-13T19:43:22Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。