論文の概要: ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers
- arxiv url: http://arxiv.org/abs/2305.14591v1
- Date: Wed, 24 May 2023 00:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:09:20.068986
- Title: ALGO: Synthesizing Algorithmic Programs with Generated Oracle Verifiers
- Title(参考訳): ALGO: 生成したOracle検証によるアルゴリズムプログラムの合成
- Authors: Kexun Zhang, Danqing Wang, Jingtao Xia, William Yang Wang, Lei Li
- Abstract要約: 大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワークである ALGO を提案する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
- 参考スコア(独自算出の注目度): 74.29299650048452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at implementing code from functionality
descriptions, but struggle with algorithmic problems that require not only
implementation but also identification of the suitable algorithm. Moreover,
LLM-generated programs lack guaranteed correctness and require human
verification. To address these challenges, we propose ALGO, a framework that
synthesizes Algorithmic programs with LLM-Generated Oracles to guide the
creation and verify their correctness. ALGO first generates a probably correct
but possibly slow reference oracle by prompting an LLM to exhaustively
enumerate all the combinations of relevant variables. This oracle is then
utilized to guide an arbitrary search strategy in exploring the algorithm space
and to verify the algorithms synthesized. Our study shows that the
LLM-generated oracles are correct for 88% of the cases. With the oracles as
verifiers, ALGO can be integrated with any existing code generation model in a
model-agnostic manner to enhance its performance. Experiments show that when
equipped with ALGO, we achieve an 8x better one-submission pass rate over the
Codex model and a 2.6x better one-submission pass rate over CodeT, the current
state-of-the-art model on CodeContests. We can also get 1.3x better pass rate
over the ChatGPT Code Interpreter on unseen problems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れ、実装だけでなく適切なアルゴリズムの識別も必要とするアルゴリズムの問題に対処する。
さらに、LLM生成プログラムは、保証された正確さを欠き、人間の検証を必要とする。
これらの課題に対処するため,アルゴリズムプログラムを LLM-Generated Oracle で合成するフレームワークであるALGO を提案する。
ALGOはまず、LLMが関連する変数のすべての組み合わせを包括的に列挙するように促すことで、おそらく正しいがおそらく遅い参照オラクルを生成する。
このオラクルはアルゴリズム空間の探索と合成アルゴリズムの検証において任意の探索戦略を導くために利用される。
症例の88%は, LLM産生のオークルが正しいことが示唆された。
oracle as verifiersを使えば、algoはモデルに依存しない方法で既存のコード生成モデルと統合でき、パフォーマンスが向上する。
ALGOを装着すると、Codexモデルよりも8倍、CodeTよりも2.6倍、最先端モデルであるCodeContestsよりも2.6倍の1サブミッションパス率が得られる。
また、見えない問題に対してChatGPT Code Interpreterよりも1.3倍のパスレートを得ることができる。
関連論文リスト
- TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - CMSA algorithm for solving the prioritized pairwise test data generation
problem in software product lines [1.1970409518725493]
ソフトウェア製品ライン(SPL)では、多数の有効な機能の組み合わせが存在するため、家族のすべての製品をテストするのは難しい、あるいは不可能かもしれない。
本研究では,Construct, Merge, Solve & Adapt というハイブリッド・メピエリスト的アプローチに基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T05:43:57Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。