論文の概要: LLM-ERM: Sample-Efficient Program Learning via LLM-Guided Search
- arxiv url: http://arxiv.org/abs/2510.14331v1
- Date: Thu, 16 Oct 2025 06:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.739781
- Title: LLM-ERM: Sample-Efficient Program Learning via LLM-Guided Search
- Title(参考訳): LLM-ERM: LLM-Guided Searchによるサンプル効率の高いプログラム学習
- Authors: Shivam Singhal, Eran Malach, Tomaso Poggio, Tomer Galanti,
- Abstract要約: LLM-ERM は、全列挙を LLM 誘導探索に置き換える提案と検証のフレームワークである。
コーディネート的にオンラインのミニバッチSGDは,特定のショートプログラムを学習するために多くのサンプルを必要とすることを示す。
これらの結果は,言語誘導型プログラム合成が有限クラスEMMの統計効率の多くを回復することを示している。
- 参考スコア(独自算出の注目度): 23.97383442759484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We seek algorithms for program learning that are both sample-efficient and computationally feasible. Classical results show that targets admitting short program descriptions (e.g., with short ``python code'') can be learned with a ``small'' number of examples (scaling with the size of the code) via length-first program enumeration, but the search is exponential in description length. Consequently, Gradient-based training avoids this cost yet can require exponentially many samples on certain short-program families. To address this gap, we introduce LLM-ERM, a propose-and-verify framework that replaces exhaustive enumeration with an LLM-guided search over candidate programs while retaining ERM-style selection on held-out data. Specifically, we draw $k$ candidates with a pretrained reasoning-augmented LLM, compile and check each on the data, and return the best verified hypothesis, with no feedback, adaptivity, or gradients. Theoretically, we show that coordinate-wise online mini-batch SGD requires many samples to learn certain short programs. {\em Empirically, LLM-ERM solves tasks such as parity variants, pattern matching, and primality testing with as few as 200 samples, while SGD-trained transformers overfit even with 100,000 samples}. These results indicate that language-guided program synthesis recovers much of the statistical efficiency of finite-class ERM while remaining computationally tractable, offering a practical route to learning succinct hypotheses beyond the reach of gradient-based training.
- Abstract(参考訳): サンプル効率と計算可能の両方が可能なプログラム学習のためのアルゴリズムを探索する。
古典的な結果は、短いプログラム記述を許容するターゲット(例えば ``python code'' を短い ``python code'' で含む)は、長さ優先のプログラム列挙によって ``small'' 個の例(コードのサイズに合わせてスケールする)で学習できるが、検索は記述長で指数関数的であることを示している。
その結果、グラディエントベースのトレーニングはこのコストを回避できるが、特定のショートプログラムファミリーで指数関数的に多くのサンプルを必要とする可能性がある。
このギャップに対処するために,提案と検証のためのフレームワークであるLLM-ERMを導入する。
具体的には、事前訓練された推論拡張 LLM を持つ$k$候補を描画し、各データをコンパイルしてチェックし、フィードバック、適応性、勾配を伴わずに、最も検証された仮説を返却する。
理論的には、座標的にオンラインのミニバッチSGDは、短いプログラムを学習するために多くのサンプルを必要とする。
実験的に、LLM-ERMはパリティ変種、パターンマッチング、予備性テストなどのタスクを200個のサンプルで解く一方、SGDで訓練されたトランスフォーマーは10万個のサンプルでもオーバーフィットする。
これらの結果から,言語誘導型プログラム合成は有限クラスのERMの統計的効率の多くを回復する一方,計算的に抽出可能であり,勾配に基づく学習の範囲を超えて簡潔な仮説を学習するための実践的な経路を提供する。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Generating Diverse Training Samples for Relation Extraction with Large Language Models [30.196619805354622]
関係抽出(RE)のための大規模言語モデル(LLM)で生成されたトレーニングサンプルの多様性を効果的に改善する方法について検討する。
一般的に使用されるREデータセットの実験では、両方の試みが生成されたトレーニングデータの品質を向上させることが示されている。
論文 参考訳(メタデータ) (2025-05-29T05:21:54Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。
RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。
ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。
我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2024-06-28T01:44:57Z) - Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。
テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。
GOとSALの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T23:27:46Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。