論文の概要: ReGAL: Refactoring Programs to Discover Generalizable Abstractions
- arxiv url: http://arxiv.org/abs/2401.16467v2
- Date: Thu, 6 Jun 2024 17:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:00:12.513839
- Title: ReGAL: Refactoring Programs to Discover Generalizable Abstractions
- Title(参考訳): ReGAL: 一般化可能な抽象化を発見するためのリファクタリングプログラム
- Authors: Elias Stengel-Eskin, Archiki Prasad, Mohit Bansal,
- Abstract要約: Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
- 参考スコア(独自算出の注目度): 59.05769810380928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) are increasingly being used for program synthesis, they lack the global view needed to develop useful abstractions; they generally predict programs one at a time, often repeating the same functionality. Generating redundant code from scratch is both inefficient and error-prone. To address this, we propose Refactoring for Generalizable Abstraction Learning (ReGAL), a gradient-free method for learning a library of reusable functions via code refactorization, i.e., restructuring code without changing its execution output. ReGAL learns from a small set of existing programs, iteratively verifying and refining its abstractions via execution. We find that the shared function libraries discovered by ReGAL make programs easier to predict across diverse domains. On five datasets -- LOGO graphics generation, Date reasoning, TextCraft (a Minecraft-based text-game) MATH, and TabMWP -- both open-source and proprietary LLMs improve in accuracy when predicting programs with ReGAL functions. For CodeLlama-13B, ReGAL results in absolute accuracy increases of 11.5% on LOGO, 26.1% on date understanding, and 8.1% on TextCraft, outperforming GPT-3.5 in two of three domains. Our analysis reveals ReGAL's abstractions encapsulate frequently-used subroutines as well as environment dynamics.
- Abstract(参考訳): 大きな言語モデル(LLM)は、プログラム合成にますます使われているが、有用な抽象化を開発するのに必要なグローバルな視点は欠如している。
スクラッチから冗長コードを生成することは、非効率かつエラーを起こします。
これを解決するために,コードリファクタリングを通じて再利用可能な関数ライブラリを学習する勾配のないReGAL(Refactoring for Generalizable Abstraction Learning)を提案する。
ReGALは、既存のプログラムの小さなセットから学び、実行を通じてその抽象化を反復的に検証し、精査する。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
LOGOグラフィック生成、日付推論、TextCraft(Minecraftベースのテキストゲーム)のMATH、TabMWPの5つのデータセットでは、オープンソースのLLMとプロプライエタリなLLMの両方が、ReGAL関数を持つプログラムを予測する際の精度を改善している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%の絶対精度向上を実現し、3つのドメインのうち2つでGPT-3.5を上回った。
分析の結果、ReGALの抽象化は、頻繁に使用されるサブルーチンと環境動態をカプセル化していることがわかった。
関連論文リスト
- Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Refactoring Programs Using Large Language Models with Few-Shot Examples [20.48175387745551]
ユーザ記述型Pythonプログラムのより複雑なバージョンを提案するために,大規模言語モデル (LLM) である GPT-3.5 を用いることを実演する。
95.68%のプログラムは、それぞれ10の候補を発生させ、結果として平均的なサイクロマティックな複雑さが17.35%減少することを示した。
論文 参考訳(メタデータ) (2023-11-20T11:43:45Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Improving Unsupervised Visual Program Inference with Code Rewriting
Families [21.515789221802493]
視覚データからプログラムを推論するシステムを改善するために,コード書き換えがいかに役立つかを示す。
教師なしブートストラップ学習のためのフレームワークであるSparse Intermittent Rewrite Injection (SIRI)を提案する。
我々は、パラメータ最適化、コードプルーニング、コードグラフトといった、ビジュアルプログラミング領域のための書き換え器のファミリーを設計する。
論文 参考訳(メタデータ) (2023-09-26T14:44:48Z) - Learning logic programs by discovering higher-order abstractions [20.57989636488575]
我々は高次最適化問題を導入する。
目標は、高階の抽象化を発見して論理プログラムを圧縮することである。
我々はこの問題を制約問題として定式化するStevieにアプローチを実装した。
論文 参考訳(メタデータ) (2023-08-16T12:50:10Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。