論文の概要: Parsel: Algorithmic Reasoning with Language Models by Composing
Decompositions
- arxiv url: http://arxiv.org/abs/2212.10561v3
- Date: Sun, 28 May 2023 21:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:25:06.825262
- Title: Parsel: Algorithmic Reasoning with Language Models by Composing
Decompositions
- Title(参考訳): Parsel: 分解による言語モデルとのアルゴリズム推論
- Authors: Eric Zelikman, Qian Huang, Gabriel Poesia, Noah D. Goodman, Nick Haber
- Abstract要約: Parselは、コードLLMによる複雑なアルゴリズムの自動実装と検証を可能にするフレームワークである。
Parselは、プログラム合成やロボット計画を含む階層的推論を必要とする領域にまたがって使用できることを示す。
ParselはHumanEvalの最先端パス@1のパフォーマンスを67%から85%に改善できる。
- 参考スコア(独自算出の注目度): 31.134347038586544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent success in large language model (LLM) reasoning, LLMs struggle
with hierarchical multi-step reasoning tasks like generating complex programs.
For these tasks, humans often start with a high-level algorithmic design and
implement each part gradually. We introduce Parsel, a framework enabling
automatic implementation and validation of complex algorithms with code LLMs.
With Parsel, we automatically decompose algorithmic tasks into hierarchical
natural language function descriptions and then search over combinations of
possible function implementations using tests. We show that Parsel can be used
across domains requiring hierarchical reasoning, including program synthesis
and robotic planning. We find that, using Parsel, LLMs solve more
competition-level problems in the APPS dataset, resulting in pass rates over
75\% higher than prior results from directly sampling AlphaCode and Codex,
while often using a smaller sample budget. Moreover, with automatically
generated tests, we find that Parsel can improve the state-of-the-art pass@1
performance on HumanEval from 67\% to 85\%. We also find that LLM-generated
robotic plans using Parsel are more than twice as likely to be considered
accurate than directly generated plans. Lastly, we explore how Parsel addresses
LLM limitations and discuss how Parsel may be useful for human programmers. We
release our code at https://github.com/ezelikman/parsel
- Abstract(参考訳): 最近の大言語モデル(llm)推論の成功にもかかわらず、llmは複雑なプログラムの生成のような階層的多段階推論タスクに苦しむ。
これらのタスクでは、人間が高レベルなアルゴリズム設計から始めて、各部分を徐々に実装する。
コードLLMによる複雑なアルゴリズムの自動実装と検証を可能にするフレームワークであるParselを紹介する。
Parselでは、アルゴリズムタスクを階層的な自然言語関数記述に自動的に分解し、テストを使って可能な関数実装の組み合わせを検索する。
プログラム合成やロボット計画など,階層的推論を必要とする領域でParselを使用できることを示す。
parselを使用することで、アプリデータセットの競合レベルの問題をllmが解決し、アルファコードとcodexを直接サンプリングすることで、以前の結果よりもパスレートが75\%高くなり、サンプル予算も小さくなることが分かりました。
さらに、自動生成されたテストでは、ParselはHumanEvalの最先端のpass@1パフォーマンスを67\%から85\%に改善できる。
また, Parselを用いたLCM生成ロボット計画の精度は, 直接生成した計画の2倍以上であることがわかった。
最後に、ParselがLLMの制限にどう対処するかを検討し、Parselが人間のプログラマにとってどのように役立つかについて議論する。
コードをhttps://github.com/ezelikman/parselでリリースします。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy [8.180994118420053]
長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。
本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。
本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。
我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文 参考訳(メタデータ) (2024-08-06T07:12:09Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - LLM+P: Empowering Large Language Models with Optimal Planning
Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。
古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。
本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文 参考訳(メタデータ) (2023-04-22T20:34:03Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。