Fugu-MT 論文翻訳(概要): Is Programming by Example solved by LLMs?

論文の概要: Is Programming by Example solved by LLMs?

arxiv url: http://arxiv.org/abs/2406.08316v3
Date: Tue, 19 Nov 2024 17:49:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.535421
Title: Is Programming by Example solved by LLMs?
Title（参考訳）: プログラミングは LLM によって解決されるか?
Authors: Wen-Ding Li, Kevin Ellis,
Abstract要約: PBE(Programming-by-Examples)は、入力出力の例からアルゴリズムを生成することを目的としている。我々は,大規模言語モデルが PBE を「解決した」と言える程度について検討する。事前訓練されたモデルはPBEでは有効ではないが、より高性能に微調整できる。
参考スコア（独自算出の注目度）: 6.3557174349423455
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Programming-by-Examples (PBE) aims to generate an algorithm from input-output examples. Such systems are practically and theoretically important: from an end-user perspective, they are deployed to millions of people, and from an AI perspective, PBE corresponds to a very general form of few-shot inductive inference. Given the success of Large Language Models (LLMs) in code-generation tasks, we investigate here the extent to which LLMs can be said to have "solved" PBE. We experiment on classic domains such as lists and strings, and an uncommon graphics programming domain not well represented in typical pretraining data. We find that pretrained models are not effective at PBE, but that they can be fine-tuned for much higher performance, provided the test problems are in-distribution. We analyze empirically what causes these models to succeed and fail, and take steps toward understanding how to achieve better out-of-distribution generalization. Collectively these results suggest that LLMs make strong progress toward solving the typical suite of PBE tasks, potentially increasing the flexibility and applicability of PBE systems, while also identifying ways in which LLMs still fall short.
Abstract（参考訳）: PBE(Programming-by-Examples)は、入力出力の例からアルゴリズムを生成することを目的としている。エンドユーザーの観点からは数百万人にデプロイされ、AIの観点からは、PBEは数発の帰納的推論の非常に一般的な形式に対応する。コード生成タスクにおけるLarge Language Models (LLMs) の成功を踏まえ, LLM が PBE を「解決した」と言える範囲について検討する。我々は、リストや文字列のような古典的なドメインと、一般的な事前学習データではよく表現されない非一般的なグラフィックプログラミングドメインを実験する。事前学習したモデルはPBEでは有効ではないが, テスト問題が分散している場合, はるかに高い性能で微調整できることがわかった。我々は、これらのモデルが成功して失敗する原因を実証的に分析し、より良いアウト・オブ・ディストリビューションの一般化を実現する方法を理解するための一歩を踏み出した。これらの結果は、PLEタスクの典型的な組の解決に向けてLLMが大きな進歩をし、PLEシステムの柔軟性と適用性を高めつつ、LSMが依然として不足している方法を特定することを示唆している。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Programming by Backprop: LLMs Acquire Reusable Algorithmic Abstractions During Code Training [2.743215038883958]
ソースコード上での大規模言語モデル(LLM)のトレーニングは、その汎用推論能力を大幅に向上させる。この効果の潜在的要因として,バックプロップ(PBB)によるプログラミングを提案する。 PBBは、自然発生したデータを反映した分布から引き出されたI/Oペアのトレーニングよりも、入力間でのプログラムの堅牢な評価につながることを示す。
論文参考訳（メタデータ） (2025-06-23T15:45:44Z)
Navigating Pitfalls: Evaluating LLMs in Machine Learning Programming Education [2.9248916859490173]
本研究では,機械学習教育における学習支援における大規模言語モデルの利用について検討する。機械学習コードにおけるプラクティスの一般的なエラーを識別するLLMの機能と、学習をガイドできるフィードバックを提供する能力に焦点を当てている。
論文参考訳（メタデータ） (2025-05-23T08:39:58Z)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Programming by Examples Meets Historical Linguistics: A Large Language Model Based Approach to Sound Law Induction [10.574091804590738]
我々は、祖先言語で再構成された単語を証明された子孫に変換する自動プログラムを開発する。そこで本研究では, 様々な量の帰納バイアスを有する4種類の合成データ生成手法を提案する。その結果をもとに,SLI を PBE として SOTA オープンソースモデルを作成し (第2 次 LLM のパラメータの 3 分の1 のパスレート+6%) ,さらに PBE 研究の今後の方向性を強調した。
論文参考訳（メタデータ） (2025-01-27T21:48:39Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文参考訳（メタデータ） (2024-08-21T15:54:17Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
(Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。 LLMはサイレントに更新され、非推奨にされる。これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文参考訳（メタデータ） (2023-11-18T17:11:12Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。