論文の概要: Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
- arxiv url: http://arxiv.org/abs/2310.02304v3
- Date: Fri, 16 Aug 2024 17:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 21:05:52.177958
- Title: Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation
- Title(参考訳): 自己学習最適化(STOP):再帰的自己改善コード生成
- Authors: Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai,
- Abstract要約: 言語モデルに融合した足場プログラムを用いて自己改善を行う。
言語モデルにより、様々な自己改善戦略が提案されている。
これは、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証している。
- 参考スコア(独自算出の注目度): 23.31928097405939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent advances in AI systems solve problems by providing a "scaffolding" program that structures multiple calls to language models (LMs) to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying an LM several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. A variety of self-improvement strategies are proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our experiments, is capable of writing code that can call itself to improve itself. We consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
- Abstract(参考訳): AIシステムの最近のいくつかの進歩は、より良い出力を生成するために複数の言語モデル(LM)への呼び出しを構造化する"スキャフォールディング"プログラムを提供することで、問題を解決している。
足場プログラムはPythonのようなプログラミング言語で記述されている。
本研究では,言語モデルを用いた足場構築プログラムを用いて自己改善を行う。
まず、LMを複数回クエリして最適な解を返すことで、与えられたユーティリティ関数に従って入力プログラムを改善するシード「インプロデューサ」から始める。
そして、このシード改善器を実行して、自分自身を改善するのです。
ダウンストリームタスクの小さなセット全体で、改善された改善プログラムは、シード改善プログラムよりもはるかに優れたパフォーマンスを持つプログラムを生成する。
ビームサーチや遺伝的アルゴリズム,シミュレートされたアニーリングなど,さまざまな自己改善戦略が言語モデルによって提案されている。
言語モデル自体が変更されていないため、これは完全な再帰的な自己改善ではない。
それにもかかわらず、我々の実験では、近代的な言語モデルであるGPT-4が、自分自身を改善のために呼び出すことができるコードを書くことができることを実証しています。
我々は、自己改善技術の開発に関する懸念を考察し、生成したコードがサンドボックスをバイパスする頻度を評価する。
関連論文リスト
- Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Piloting Copilot and Codex: Hot Temperature, Cold Prompts, or Black
Magic? [5.714553194279462]
2つの言語モデルの様々な入力パラメータについて検討し、これらの入力パラメータの変動が生成したプログラムの品質に重大な影響を及ぼすかどうかを理解するために研究を行う。
その結果,入力パラメータの変動は言語モデルの性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T13:28:14Z) - Language Models Can Teach Themselves to Program Better [4.627023679353507]
近年の言語モデル (LM) は、人間の許可を受けた問題で訓練された場合、コード生成において画期的な性能を達成する。
そこで本研究では,Pythonインタプリタの正しさをフィルタするプログラミング問題と解を,LMが合成可能であることを示す。
LMの性能は、独自の合成問題と検証された解を微調整することで改善される。
論文 参考訳(メタデータ) (2022-07-29T06:43:28Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - Searching for More Efficient Dynamic Programs [61.79535031840558]
本稿では,プログラム変換の集合,変換プログラムの効率を評価するための単純な指標,およびこの指標を改善するための探索手順について述べる。
実際に、自動検索は初期プログラムの大幅な改善を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-09-14T20:52:55Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - Generating Adversarial Computer Programs using Optimized Obfuscations [43.95037234252815]
コンピュータプログラムに逆らってそのような学習モデルをだます原則的な方法を検討する。
我々は,従来はリバースエンジニアリングプログラムの試みを避けるために用いられてきたプログラム難読化を用いる。
当社の最良の攻撃提案は、最先端の攻撃生成アプローチよりも52%$改善できることを示します。
論文 参考訳(メタデータ) (2021-03-18T10:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。