論文の概要: Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub
- arxiv url: http://arxiv.org/abs/2312.17294v2
- Date: Mon, 09 Jun 2025 01:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:08.141483
- Title: Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub
- Title(参考訳): GitHubの自律ツール統合によるLLMのオープンドメインタスクソルビング機能向上
- Authors: Bohan Lyu, Xin Cong, Heyang Yu, Pan Yang, Yujia Qin, Yining Ye, Yaxi Lu, Zhong Zhang, Yukun Yan, Yankai Lin, Zhiyuan Liu, Maosong Sun,
- Abstract要約: オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
- 参考スコア(独自算出の注目度): 79.31134731122462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in traditional natural language processing tasks but struggle with problems that require complex domain-specific calculations or simulations. While equipping LLMs with external tools to build LLM-based agents can enhance their capabilities, existing approaches lack the flexibility to address diverse and ever-evolving user queries in open domains. Currently, there is also no existing dataset that evaluates LLMs on open-domain knowledge that requires tools to solve. To this end, we introduce OpenAct benchmark to evaluate the open-domain task-solving capability, which is built on human expert consultation and repositories in GitHub. It comprises 339 questions spanning 7 diverse domains that need to be solved with domain-specific methods. In our experiments, even state-of-the-art LLMs and LLM-based agents demonstrate unsatisfactory success rates, underscoring the need for a novel approach. Furthermore, we present OpenAgent, a novel LLM-based agent system that can tackle evolving queries in open domains through autonomously integrating specialized tools from GitHub. OpenAgent employs 1) a hierarchical framework where specialized agents handle specific tasks and can assign tasks to inferior agents, 2) a bi-level experience learning mechanism to learn from both humans' and its own experiences to tackle tool flaws. Experiments demonstrate its superior effectiveness and efficiency, which significantly outperforms baselines. Our data and code are open-source at https://github.com/OpenBMB/OpenAct.
- Abstract(参考訳): 大規模言語モデル(LLM)は、従来の自然言語処理タスクでは優れているが、複雑なドメイン固有の計算やシミュレーションを必要とする問題に悩まされている。
LLMベースのエージェントを構築するための外部ツールをLLMに装備することは、その能力を高めることができるが、既存のアプローチでは、オープンドメインにおける多種多様な進化を続けるユーザクエリに対処する柔軟性が欠如している。
現在、ツールを必要とするオープンドメインの知識に基づいてLLMを評価する既存のデータセットも存在しない。
この目的のために、オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
ドメイン固有の方法で解決する必要がある7つの異なるドメインにまたがる339の質問を含んでいる。
我々の実験では、最先端のLSMやLSMベースのエージェントでさえ満足のいく成功率を示し、新しいアプローチの必要性を浮き彫りにした。
さらに,オープンドメインの進化するクエリに,GitHubから専門的なツールを自律的に統合することで対処可能な,新たなLLMベースのエージェントシステムであるOpenAgentを提案する。
OpenAgentが採用
1 特殊エージェントが特定のタスクを処理し、劣等エージェントにタスクを割り当てることができる階層的な枠組み
2) ツール欠陥に対処するための,人間の経験と自身の経験から学ぶための双方向体験学習機構。
実験は、その優れた効果と効率を示し、ベースラインを著しく上回る。
我々のデータとコードはhttps://github.com/OpenBMB/OpenAct.comでオープンソース化されています。
関連論文リスト
- ReDel: A Toolkit for LLM-Powered Recursive Multi-Agent Systems [39.85101344037394]
ReDelはマルチエージェントシステムを構築するためのツールキットである。
カスタムツールの使用、デリゲートスキーム、イベントベースのロギング、インタラクティブなリプレイをサポートする。
私たちのコード、ドキュメンテーション、およびPyPIパッケージはオープンソースで、MITライセンス下で自由に使用できます。
論文 参考訳(メタデータ) (2024-08-05T05:43:23Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。
ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (2024-01-14T18:12:03Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。