論文の概要: Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
- arxiv url: http://arxiv.org/abs/2508.06813v1
- Date: Sat, 09 Aug 2025 04:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.560993
- Title: Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
- Title(参考訳): テクニカルレポート:Qプログラミング言語のためのフルスタックファインチューニング
- Authors: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka,
- Abstract要約: 我々はQ言語の評価データセットをリリースする。
データセット上で主要なフロンティアモデルをベンチマークし、事前トレーニング、教師付き微調整、強化学習を行います。
我々の最高のモデルは、Qベンチマークで59%のパス@1精度を実現し、最高のパフォーマンスのフロンティアモデルを上回っています。
- 参考スコア(独自算出の注目度): 1.2316583133621197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though large language models are becoming increasingly capable, it is still unreasonable to expect them to excel at tasks that are under-represented on the Internet. Leveraging LLMs for specialized applications, particularly in niche programming languages and private domains, remains challenging and largely unsolved. In this work, we address this gap by presenting a comprehensive, open-source approach for adapting LLMs to the Q programming language, a popular tool in quantitative finance that is much less present on the Internet compared to Python, C, Java, and other ``mainstream" languages and is therefore not a strong suit of general-purpose AI models. We introduce a new Leetcode style evaluation dataset for Q, benchmark major frontier models on the dataset, then do pretraining, supervised fine tuning, and reinforcement learning to train a suite of reasoning and non-reasoning models based on the Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our best model achieves a pass@1 accuracy of 59 percent on our Q benchmark, surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent. Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task. In addition to releasing models, code, and data, we provide a detailed blueprint for dataset construction, model pretraining, supervised fine-tuning, and reinforcement learning. Our methodology is broadly applicable, and we discuss how these techniques can be extended to other tasks, including those where evaluation may rely on soft or subjective signals.
- Abstract(参考訳): 大規模言語モデルはますます有能になってきていますが、インターネット上であまり表現されていないタスクに優れていると期待するのは理にかなっていることではありません。
特殊なアプリケーション、特にニッチプログラミング言語やプライベートドメインでLLMを活用することは、依然として困難であり、ほとんど解決されていない。
本稿では,LLMをQ言語に適用するための包括的かつオープンソースなアプローチを提案することで,このギャップに対処する。これは,PythonやC,Java,その他“メインストリーム”言語に比べてインターネット上には存在せず,汎用AIモデルに強く適していない定量的ファイナンスにおいて,一般的なツールである。
そこで我々は,Qwen-2.5シリーズに基づく推論モデルと非推論モデルのスイートをトレーニングするために,Qのための新しいLeetcodeスタイル評価データセット,データセット上の主要フロンティアモデルベンチマーク,事前トレーニング,教師付き微調整,強化学習を導入し,パラメータサイズを5つ(1.5B,3B,7B,14B,32B)に分けた。
我々の最高のモデルは、Qベンチマークで59%のパス@1精度を実現し、最高のパフォーマンスのフロンティアモデルであるClaude Opus-4を29.5%上回る。
さらに、1.5Bモデルを含む全てのモデルがこのタスクでGPT-4.1を上回った。
モデル、コード、データのリリースに加えて、データセットの構築、モデルの事前トレーニング、教師付き微調整、強化学習のための詳細な青写真を提供する。
提案手法は広く適用可能であり,評価がソフト信号や主観的信号に依存する場合など,これらの手法を他のタスクに拡張する方法について論じる。
関連論文リスト
- Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models [11.698978613605561]
手動のイシュー分類は面倒でスケーラビリティに欠けています。
伝統的に、問題分類には機械学習技術が用いられてきた。
大規模言語モデル(LLM)は、ソフトウェア工学の課題に対処するための強力なツールとして登場した。
論文 参考訳(メタデータ) (2025-05-30T18:02:55Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - Large Language Models Are Also Good Prototypical Commonsense Reasoners [11.108562540123387]
従来の微調整アプローチはリソース集約的であり、モデルの一般化能力を損なう可能性がある。
我々は、調整されたタスクのための大規模モデルの出力からインスピレーションを受け、半自動で新しいプロンプトのセットを開発した。
より優れた設計のプロンプトによって、ProtoQAのリーダーボードで新しい最先端(SOTA)を達成することができます。
論文 参考訳(メタデータ) (2023-09-22T20:07:24Z) - Skill over Scale: The Case for Medium, Domain-Specific Models for SE [4.2630881518611226]
コードラベリングタスクにおいて、控えめな大きさのドメイン固有モデルは、はるかに大きなモデルよりも優れていることを示す。
SOBertBase (125Mパラメータ)とSOBertLarge (762Mパラメータ)の2つのモデルを、それぞれ374ドルと1600ドルでトレーニングしています。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。