Fugu-MT 論文翻訳(概要): Executable Code Actions Elicit Better LLM Agents

論文の概要: Executable Code Actions Elicit Better LLM Agents

arxiv url: http://arxiv.org/abs/2402.01030v2
Date: Mon, 18 Mar 2024 15:18:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 23:31:36.373097
Title: Executable Code Actions Elicit Better LLM Agents
Title（参考訳）: 実行可能なコードアクションにより、より良いLLMエージェントが取り除かれる
Authors: Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji,
Abstract要約: この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
参考スコア（独自算出の注目度）: 76.95566120678787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) agents, capable of performing a broad range of actions, such as invoking tools and controlling robots, show great potential in tackling real-world challenges. LLM agents are typically prompted to produce actions by generating JSON or text in a pre-defined format, which is usually limited by constrained action space (e.g., the scope of pre-defined tools) and restricted flexibility (e.g., inability to compose multiple tools). This work proposes to use executable Python code to consolidate LLM agents' actions into a unified action space (CodeAct). Integrated with a Python interpreter, CodeAct can execute code actions and dynamically revise prior actions or emit new actions upon new observations through multi-turn interactions. Our extensive analysis of 17 LLMs on API-Bank and a newly curated benchmark shows that CodeAct outperforms widely used alternatives (up to 20% higher success rate). The encouraging performance of CodeAct motivates us to build an open-source LLM agent that interacts with environments by executing interpretable code and collaborates with users using natural language. To this end, we collect an instruction-tuning dataset CodeActInstruct that consists of 7k multi-turn interactions using CodeAct. We show that it can be used with existing data to improve models in agent-oriented tasks without compromising their general capability. CodeActAgent, finetuned from Llama2 and Mistral, is integrated with Python interpreter and uniquely tailored to perform sophisticated tasks (e.g., model training) using existing libraries and autonomously self-debug.
Abstract（参考訳）: 大きな言語モデル(LLM)エージェントは、ツールの呼び出しやロボットの制御など、幅広いアクションを実行することができ、現実世界の課題に取り組む大きな可能性を示している。 LLMエージェントは、通常、事前に定義されたフォーマットでJSONやテキストを生成することでアクションを生成するよう促される。この研究は、実行可能なPythonコードを使用して、LLMエージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 API-Bank上の17のLLMと、新たにキュレートされたベンチマークの広範な分析は、CodeActが広く使われている代替品(最大20%の成功率)を上回っていることを示している。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。この目的のために,CodeAct を用いた 7k のマルチターンインタラクションからなる命令チューニングデータセット CodeActInstruct を収集する。本稿では,エージェント指向タスクのモデルを改善するために,既存のデータと組み合わせることで,汎用性を損なうことなく利用できることを示す。 Llama2とMistralから微調整されたCodeActAgentはPythonインタプリタと統合されており、既存のライブラリを使用して高度なタスク(例えばモデルトレーニング)を実行し、自律的に自己デバッグするように設計されている。

関連論文リスト

A Fast, Reliable, and Secure Programming Language for LLM Agents with Code Actions [28.01600045250939]
我々はQuasarと呼ばれるコードアクションのためのプログラミング言語を提案する。 LLMはPythonのサブセットでコードを書くことができ、自動的にQuasarに変換される。 Quasarアクションを持つLLMは高いパフォーマンスを維持し、可能な限り実行時間を42%削減する。
論文参考訳（メタデータ） (2025-06-13T20:11:22Z)
Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation and Execution in Complex Task Handling [4.597983734278579]
Tree-of-Codeは1/4回転未満でCodeActよりも精度を20%近く向上させる。いくつかのLDMは、マルチターンのCodeActよりも、1ターンのCodeProgramの方がパフォーマンスが良い。
論文参考訳（メタデータ） (2024-12-19T12:31:22Z)
DynaSaur: Large Language Agents Beyond Predefined Actions [108.75187263724838]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。 GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-11-04T02:08:59Z)
GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications [46.85306320942487]
大きな言語モデル(LLM)は、ツールに積極的に関与し、現実世界のアプリケーションやサービスでアクションを実行するために進化しています。現在、人間はLLM生成した出力の正確さと適切性を検証し、それらを実世界の実行に投入している。コードの理解は、悪名高いほど難しいことで知られています。本稿では,人類が将来,自律LLMと効率的に協力し,委譲し,監督する方法について検討する。
論文参考訳（メタデータ） (2024-04-10T11:17:33Z)
CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文参考訳（メタデータ） (2024-01-14T18:12:03Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文参考訳（メタデータ） (2023-06-26T17:59:50Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。