Fugu-MT 論文翻訳(概要): Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

論文の概要: Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub

arxiv url: http://arxiv.org/abs/2312.17294v2
Date: Mon, 09 Jun 2025 01:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:08.141483
Title: Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub
Title（参考訳）: GitHubの自律ツール統合によるLLMのオープンドメインタスクソルビング機能向上
Authors: Bohan Lyu, Xin Cong, Heyang Yu, Pan Yang, Yujia Qin, Yining Ye, Yaxi Lu, Zhong Zhang, Yukun Yan, Yankai Lin, Zhiyuan Liu, Maosong Sun,
Abstract要約: オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
参考スコア（独自算出の注目度）: 79.31134731122462
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) excel in traditional natural language processing tasks but struggle with problems that require complex domain-specific calculations or simulations. While equipping LLMs with external tools to build LLM-based agents can enhance their capabilities, existing approaches lack the flexibility to address diverse and ever-evolving user queries in open domains. Currently, there is also no existing dataset that evaluates LLMs on open-domain knowledge that requires tools to solve. To this end, we introduce OpenAct benchmark to evaluate the open-domain task-solving capability, which is built on human expert consultation and repositories in GitHub. It comprises 339 questions spanning 7 diverse domains that need to be solved with domain-specific methods. In our experiments, even state-of-the-art LLMs and LLM-based agents demonstrate unsatisfactory success rates, underscoring the need for a novel approach. Furthermore, we present OpenAgent, a novel LLM-based agent system that can tackle evolving queries in open domains through autonomously integrating specialized tools from GitHub. OpenAgent employs 1) a hierarchical framework where specialized agents handle specific tasks and can assign tasks to inferior agents, 2) a bi-level experience learning mechanism to learn from both humans' and its own experiences to tackle tool flaws. Experiments demonstrate its superior effectiveness and efficiency, which significantly outperforms baselines. Our data and code are open-source at https://github.com/OpenBMB/OpenAct.
Abstract（参考訳）: 大規模言語モデル(LLM)は、従来の自然言語処理タスクでは優れているが、複雑なドメイン固有の計算やシミュレーションを必要とする問題に悩まされている。 LLMベースのエージェントを構築するための外部ツールをLLMに装備することは、その能力を高めることができるが、既存のアプローチでは、オープンドメインにおける多種多様な進化を続けるユーザクエリに対処する柔軟性が欠如している。現在、ツールを必要とするオープンドメインの知識に基づいてLLMを評価する既存のデータセットも存在しない。この目的のために、オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。ドメイン固有の方法で解決する必要がある7つの異なるドメインにまたがる339の質問を含んでいる。我々の実験では、最先端のLSMやLSMベースのエージェントでさえ満足のいく成功率を示し、新しいアプローチの必要性を浮き彫りにした。さらに,オープンドメインの進化するクエリに,GitHubから専門的なツールを自律的に統合することで対処可能な,新たなLLMベースのエージェントシステムであるOpenAgentを提案する。 OpenAgentが採用 1 特殊エージェントが特定のタスクを処理し、劣等エージェントにタスクを割り当てることができる階層的な枠組み 2) ツール欠陥に対処するための,人間の経験と自身の経験から学ぶための双方向体験学習機構。実験は、その優れた効果と効率を示し、ベースラインを著しく上回る。我々のデータとコードはhttps://github.com/OpenBMB/OpenAct.comでオープンソース化されています。

関連論文リスト

SAGE: Tool-Augmented LLM Task Solving Strategies in Scalable Multi-Agent Environments [2.071720670587172]
我々は,ツール発見と実行のためのOPACAフレームワークをベースとした,特殊な対話型AIインターフェースであるSAGEを紹介する。エージェントの概念を駆使し,様々な複雑さの手法を推し進めるタスク解決戦略を多数実装する。結果は有望であり、異なるタスク解決戦略の異なる長所と短所を強調している。
論文参考訳（メタデータ） (2026-01-12T15:49:47Z)
InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。この設計は信頼性と非自明性の両方を保証する。
論文参考訳（メタデータ） (2025-10-02T17:48:03Z)
O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering [31.38063794496179]
O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。 O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
論文参考訳（メタデータ） (2025-05-22T12:17:13Z)
Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark [38.14474956762422]
DomainCodeBenchは、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。トップ・ジェネラル・ドメイン・モデルは特定のアプリケーション・ドメインで一貫して排他的でないことが分かりました。ドメイン固有の知識による拡張プロンプトは、パフォーマンスを約38.17%向上させる。
論文参考訳（メタデータ） (2024-12-24T17:56:08Z)
ReDel: A Toolkit for LLM-Powered Recursive Multi-Agent Systems [39.85101344037394]
ReDelはマルチエージェントシステムを構築するためのツールキットである。カスタムツールの使用、デリゲートスキーム、イベントベースのロギング、インタラクティブなリプレイをサポートする。私たちのコード、ドキュメンテーション、およびPyPIパッケージはオープンソースで、MITライセンス下で自由に使用できます。
論文参考訳（メタデータ） (2024-08-05T05:43:23Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model [15.558269067931374]
オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。蒸留後、実施エージェントは専門的なガイダンスなしで複雑なオープンエンドタスクを完了することができる。
論文参考訳（メタデータ） (2024-04-06T12:51:00Z)
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:57Z)
Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文参考訳（メタデータ） (2024-01-21T23:36:14Z)
CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文参考訳（メタデータ） (2024-01-14T18:12:03Z)
EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-01-11T15:45:11Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文参考訳（メタデータ） (2023-09-14T17:18:25Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。