Fugu-MT 論文翻訳(概要): Benchmarking Agentic Workflow Generation

論文の概要: Benchmarking Agentic Workflow Generation

arxiv url: http://arxiv.org/abs/2410.07869v1
Date: Wed, 30 Oct 2024 14:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 14:16:01.989085
Title: Benchmarking Agentic Workflow Generation
Title（参考訳）: ベンチマークエージェントワークフロー生成
Authors: Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen,
Abstract要約: 大規模言語モデル(LLM)は、推論や計画タスクに対処する上で大きな進歩をもたらした。複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
参考スコア（独自算出の注目度）: 80.74757493266057
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset will be available at https://github.com/zjunlp/WorFBench.
Abstract（参考訳）: 大きな言語モデル(LLM)は、幅広いタスクを処理できる優れた能力を備えており、推論や計画タスクに対処する上で大きな進歩をもたらしている。既存のワークフロー評価フレームワークは、全体的なパフォーマンスのみにフォーカスするか、制限されたシナリオカバレッジ、単純化されたワークフロー構造、ラックス評価標準といった制限に悩まされている。この目的のために,多面的なシナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。さらに,LLMエージェントのワークフロー生成能力を正確に定量化するために,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルであるWorFEvalを提案する。 LLMエージェントのシーケンス計画能力とグラフ計画能力の間には, GPT-4でも約15%のギャップがみられた。また、2つのオープンソースモデルをトレーニングし、ホールドアウトタスクにおけるそれらの一般化能力を評価する。さらに、生成されたワークフローが下流タスクを強化し、推論中により少ない時間で優れたパフォーマンスを実現できることを観察する。コードとデータセットはhttps://github.com/zjunlp/WorFBench.comから入手できる。

関連論文リスト

Polymath: A Self-Optimizing Agent with Dynamic Hierarchical Workflow [6.636150750052998]
大規模言語モデル(LLM)は、詳細な命令と構造化操作からなるエージェントティックを実行することで、複雑なタスクの解決に優れる。多くの研究者がコードベースの表現を通じてこれらの生成と最適化を自動化しようとしてきた。既存の方法は、トレーニングと最適化のためにラベル付きデータセットに頼っていることが多く、現実のダイナミックな問題を解決するのに非効率で柔軟性がない。
論文参考訳（メタデータ） (2025-08-04T23:50:02Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。 Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳（メタデータ） (2025-05-26T09:46:50Z)
GNNs as Predictors of Agentic Workflow Performances [48.34485750450876]
LLM(Large Language Models)によって起動されるエージェントは、複雑なタスクの処理において顕著な成功を収めた。本稿では、エージェントを計算グラフとして定式化し、エージェント性能の効率的な予測因子としてグラフニューラルネットワーク(GNN)を提唱する。エージェントワークフローのパフォーマンスを予測するため,GNNをベンチマークする統合プラットフォームであるFLORA-Benchを構築した。
論文参考訳（メタデータ） (2025-03-14T11:11:00Z)
Flow: Modularized Agentic Workflow Automation [53.073598156915615]
大規模言語モデル(LLM)を利用したマルチエージェントフレームワークは、自動計画とタスク実行において大きな成功を収めている。しかし, 実行中のエージェントの効果的な調整は十分に研究されていない。本稿では,エージェントによる継続的なワークフロー改善を可能にするアクティビティ・オン・頂点(AOV)グラフを定義する。提案するマルチエージェントフレームワークは,サブタスクの効率的な同時実行,効果的なゴール達成,エラー耐性の向上を実現している。
論文参考訳（メタデータ） (2025-01-14T04:35:37Z)
Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文参考訳（メタデータ） (2024-11-30T20:00:41Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。 6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文参考訳（メタデータ） (2024-10-14T17:40:40Z)
Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-10-01T22:35:56Z)
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents [64.1759086221016]
ワークフロー誘導計画の最初のベンチマークであるFlowBenchを紹介します。 FlowBenchは6つのドメインから51のシナリオをカバーしている。以上の結果から,現在のLLMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。
論文参考訳（メタデータ） (2024-06-21T06:13:00Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
FlowMind: Automatic Workflow Generation with LLMs [12.848562107014093]
本稿では,Large Language Models(LLM)の機能を活用した新しいアプローチであるFlowMindを紹介する。信頼性のあるアプリケーションプログラミングインタフェース(API)を用いたLLM推論を支援する講義のための汎用的なプロンプトレシピを提案する。また、N-CENレポートからの質問応答タスクをベンチマークするための金融の新しいデータセットであるNCEN-QAについても紹介する。
論文参考訳（メタデータ） (2024-03-17T00:36:37Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Multi-objective Optimization of Clustering-based Scheduling for Multi-workflow On Clouds Considering Fairness [4.021507306414546]
本稿では,資源割り当てのためのクラスタリングに基づくマルチワークフロースケジューリング手法を提案する。実験結果から,提案手法の精度は,提案手法が比較アルゴリズムよりも優れており,全体の規模とコストと,個別の公平性を著しく損なうことなく性能が向上することが示された。
論文参考訳（メタデータ） (2022-05-23T10:25:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。