Fugu-MT 論文翻訳(概要): Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions

論文の概要: Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions

arxiv url: http://arxiv.org/abs/2212.10561v3
Date: Sun, 28 May 2023 21:12:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 02:25:06.825262
Title: Parsel: Algorithmic Reasoning with Language Models by Composing Decompositions
Title（参考訳）: Parsel: 分解による言語モデルとのアルゴリズム推論
Authors: Eric Zelikman, Qian Huang, Gabriel Poesia, Noah D. Goodman, Nick Haber
Abstract要約: Parselは、コードLLMによる複雑なアルゴリズムの自動実装と検証を可能にするフレームワークである。 Parselは、プログラム合成やロボット計画を含む階層的推論を必要とする領域にまたがって使用できることを示す。 ParselはHumanEvalの最先端パス@1のパフォーマンスを67%から85%に改善できる。
参考スコア（独自算出の注目度）: 31.134347038586544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent success in large language model (LLM) reasoning, LLMs struggle with hierarchical multi-step reasoning tasks like generating complex programs. For these tasks, humans often start with a high-level algorithmic design and implement each part gradually. We introduce Parsel, a framework enabling automatic implementation and validation of complex algorithms with code LLMs. With Parsel, we automatically decompose algorithmic tasks into hierarchical natural language function descriptions and then search over combinations of possible function implementations using tests. We show that Parsel can be used across domains requiring hierarchical reasoning, including program synthesis and robotic planning. We find that, using Parsel, LLMs solve more competition-level problems in the APPS dataset, resulting in pass rates over 75\% higher than prior results from directly sampling AlphaCode and Codex, while often using a smaller sample budget. Moreover, with automatically generated tests, we find that Parsel can improve the state-of-the-art pass@1 performance on HumanEval from 67\% to 85\%. We also find that LLM-generated robotic plans using Parsel are more than twice as likely to be considered accurate than directly generated plans. Lastly, we explore how Parsel addresses LLM limitations and discuss how Parsel may be useful for human programmers. We release our code at https://github.com/ezelikman/parsel
Abstract（参考訳）: 最近の大言語モデル(llm)推論の成功にもかかわらず、llmは複雑なプログラムの生成のような階層的多段階推論タスクに苦しむ。これらのタスクでは、人間が高レベルなアルゴリズム設計から始めて、各部分を徐々に実装する。コードLLMによる複雑なアルゴリズムの自動実装と検証を可能にするフレームワークであるParselを紹介する。 Parselでは、アルゴリズムタスクを階層的な自然言語関数記述に自動的に分解し、テストを使って可能な関数実装の組み合わせを検索する。プログラム合成やロボット計画など,階層的推論を必要とする領域でParselを使用できることを示す。 parselを使用することで、アプリデータセットの競合レベルの問題をllmが解決し、アルファコードとcodexを直接サンプリングすることで、以前の結果よりもパスレートが75\%高くなり、サンプル予算も小さくなることが分かりました。さらに、自動生成されたテストでは、ParselはHumanEvalの最先端のpass@1パフォーマンスを67\%から85\%に改善できる。また, Parselを用いたLCM生成ロボット計画の精度は, 直接生成した計画の2倍以上であることがわかった。最後に、ParselがLLMの制限にどう対処するかを検討し、Parselが人間のプログラマにとってどのように役立つかについて議論する。コードをhttps://github.com/ezelikman/parselでリリースします。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
LLM-Guided Compositional Program Synthesis [16.867355177975387]
大規模言語モデル(LLM)は、異なるターゲット言語でコードを生成することによってPBEタスクを解く能力を持つが、予測不能に失敗する可能性がある。そこで本研究では,LLMのためのシンプルなサブタスクを構築することで,障害から回復する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-12T00:36:43Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy [8.180994118420053]
長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。
論文参考訳（メタデータ） (2024-08-15T14:46:13Z)
LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文参考訳（メタデータ） (2024-08-06T07:12:09Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-15T03:29:59Z)
AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-10T21:58:29Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
LLM+P: Empowering Large Language Models with Optimal Planning Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文参考訳（メタデータ） (2023-04-22T20:34:03Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。