論文の概要: A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation
- arxiv url: http://arxiv.org/abs/2602.09112v1
- Date: Mon, 09 Feb 2026 19:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.205802
- Title: A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation
- Title(参考訳): 制御実験を取り入れた自己回帰型プログラム合成のための小型システム
- Authors: Russ Webb, Jason Ramapuram,
- Abstract要約: Integer Virtual Machine (VM)、多種多様なタスクの真のプログラムからなるデータセット、そして200ドル以下の計算コストでトレーニングされた自己回帰変換器モデルを含むCadmusと呼ばれるシステムを提案する。
このシステムは、研究者がトレーニング分布を効果的かつ安価に制御できるような環境で、プログラム完了、アウト・オブ・ディストリビューション表現、帰納的推論、および指示に従うのに使用できる。
- 参考スコア(独自算出の注目度): 4.499832265081113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What research can be pursued with small models trained to complete true programs? Typically, researchers study program synthesis via large language models (LLMs) which introduce issues such as knowing what is in or out of distribution, understanding fine-tuning effects, understanding the effects of tokenization, and higher demand on compute and storage to carry out experiments. We present a system called Cadmus which includes an integer virtual machine (VM), a dataset composed of true programs of diverse tasks, and an autoregressive transformer model that is trained for under \$200 of compute cost. The system can be used to study program completion, out-of-distribution representations, inductive reasoning, and instruction following in a setting where researchers have effective and affordable fine-grained control of the training distribution and the ability to inspect and instrument models. Smaller models working on complex reasoning tasks enable instrumentation and investigations that may be prohibitively expensive on larger models. To demonstrate that these tasks are complex enough to be of interest, we show that these Cadmus models outperform GPT-5 (by achieving 100\% accuracy while GPT-5 has 95\% accuracy) even on a simple task of completing correct, integer arithmetic programs in our domain-specific language (DSL) while providing transparency into the dataset's relationship to the problem. We also show that GPT-5 brings unknown priors into its reasoning process when solving the same tasks, demonstrating a confounding factor that prevents the use of large-scale LLMs for some investigations where the training set relationship to the task needs to be fully understood.
- Abstract(参考訳): 真のプログラムを完成させるために訓練された小さなモデルで、どんな研究を追求できるだろうか?
通常、研究者は大規模言語モデル (LLMs) を通じてプログラム合成を研究し、分布中や外にあるものを知ること、微調整効果を理解すること、トークン化の効果を理解すること、実験を行うための計算と記憶に対するより高い要求などの問題を提起する。
Integer Virtual Machine (VM)、多種多様なタスクの真のプログラムからなるデータセット、そして200ドル以下の計算コストでトレーニングされた自己回帰変換器モデルを含むCadmusと呼ばれるシステムを提案する。
このシステムは、研究者がトレーニング分布とモデルを検査し測定する能力を効果的かつ安価に制御できるような環境で、プログラムの完了、配布外表現、帰納的推論、および指示に従うために使用することができる。
複雑な推論タスクに取り組んでいるより小さなモデルは、より大きなモデルでは違法に高価な機器や調査を可能にする。
これらのタスクが興味をそそられるほど複雑であることを示すために、これらのカドマスモデルは、データセットと問題との関係に透明性を提供しながら、ドメイン固有言語(DSL)の整数算術プログラムを完了させる単純なタスクであっても、GPT-5(100 %精度、GPT-5は95 %精度)より優れていることを示す。
また, GPT-5は, 同じタスクを解く際に, 未知の先行要因を推論プロセスにもたらすことを示し, タスクとトレーニングセットの関係を十分に理解する必要があるいくつかの調査において, 大規模LLMの使用を阻害する要因を実証する。
関連論文リスト
- Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning [14.652057895402006]
自律型UAVは、軌道計画や電力管理といったタスクに対して、信頼性の高い数学的推論を必要とする。
本稿では,複数の大規模言語モデルの数学的推論を改善するための検索拡張生成フレームワークであるRAG-UAVを提案する。
実験により, 検索を組み込んだ場合, 解答精度が向上し, 解答精度が最大75%向上し, 不正な定式化選択の事例が減少し, 数値誤差が減少することが確認された。
論文 参考訳(メタデータ) (2025-06-05T13:09:24Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Scalable Learning of Item Response Theory Models [48.91265296134559]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - A Step Towards Efficient Evaluation of Complex Perception Tasks in
Simulation [5.4954641673299145]
単純化された低忠実度シミュレータを用いて,効率的な大規模テストを実現する手法を提案する。
我々のアプローチは、テスト中のタスクの計算集約的なコンポーネントに対応する効率的なサロゲートモデルを設計することに依存している。
計算コストを削減したCarlaシミュレータにおける自律運転タスクの性能を評価することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-09-28T13:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。