Fugu-MT 論文翻訳(概要): m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

論文の概要: m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

arxiv url: http://arxiv.org/abs/2403.11085v4
Date: Sun, 22 Sep 2024 06:08:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:59:25.076674
Title: m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks
Title（参考訳）: m&m's: マルチステップマルチモーダルタスクのためのツール利用評価ベンチマーク
Authors: Zixian Ma, Weikai Huang, Jieyu Zhang, Tanmay Gupta, Ranjay Krishna,
Abstract要約: 我々は、33のツールを含む4K以上のマルチステップマルチモーダルタスクを含むベンチマークであるm&m'sを紹介する。これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。 1,565のタスクプランの高品質なサブセットを提供する。
参考スコア（独自算出の注目度）: 31.031053149807857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world multi-modal problems are rarely solved by a single machine learning model, and often require multi-step computational plans that involve stitching several models. Tool-augmented LLMs hold tremendous promise for automating the generation of such computational plans. However, the lack of standardized benchmarks for evaluating LLMs as planners for multi-step multi-modal tasks has prevented a systematic study of planner design decisions. Should LLMs generate a full plan in a single shot or step-by-step? Should they invoke tools directly with Python code or through structured data formats like JSON? Does feedback improve planning? To answer these questions and more, we introduce m&m's: a benchmark containing 4K+ multi-step multi-modal tasks involving 33 tools that include multi-modal models, (free) public APIs, and image processing modules. For each of these task queries, we provide automatically generated plans using this realistic toolset. We further provide a high-quality subset of 1,565 task plans that are human-verified and correctly executable. With m&m's, we evaluate 10 popular LLMs with 2 planning strategies (multi-step vs. step-by-step planning), 2 plan formats (JSON vs. code), and 3 types of feedback (parsing/verification/execution). Finally, we summarize takeaways from our extensive experiments. Our dataset and code are available on HuggingFace (https://huggingface.co/datasets/zixianma/mnms) and Github (https://github.com/RAIVNLab/mnms).
Abstract（参考訳）: 実世界のマルチモーダル問題は、単一の機械学習モデルではほとんど解決されず、しばしば複数のモデルを縫合する多段階の計算計画を必要とする。ツール拡張 LLM は、そのような計算計画の自動生成に非常に有望である。しかし、マルチステップマルチモーダルタスクのプランナーとしてLLMを評価するための標準ベンチマークが欠如していることは、プランナー設計決定の体系的な研究を妨げている。 LLMは、ひとつのショットで完全なプランを生成するべきか、ステップバイステップで生成すべきか? ツールを直接PythonコードやJSONのような構造化データフォーマットで呼び出すべきか? フィードバックは計画を改善するか? マルチモーダルモデル、(無料)パブリックAPI、画像処理モジュールを含む33のツールを含む4K以上のマルチモーダルタスクを含むベンチマーク。これら各タスククエリに対して、この現実的なツールセットを使用して自動生成されたプランを提供する。我々はさらに,人間による検証と正確な実行が可能な,1,565のタスクプランの高品質なサブセットを提供する。 m&mでは,2つの計画戦略(複数ステップ対ステップバイステッププランニング),2つの計画形式(JSON対コード),3種類のフィードバック(パーシング/検証/実行)を備えた10のLLMを評価した。最後に、我々の広範な実験の要点を要約する。私たちのデータセットとコードは、HuggingFace (https://huggingface.co/datasets/zixianma/mnms)とGithub (https://github.com/RAIVNLab/mnms)で利用可能です。

関連論文リスト

LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
Query-Efficient Planning with Language Models [8.136901056728945]
複雑な環境での計画では、エージェントがスタートからゴールまでの一連のアクションを見つけるために、ワールドモデルを効率的にクエリする必要がある。最近の研究によると、Large Language Models(LLM)は、将来有望な状態を探索し、世界からのフィードバックに適応することによって、計画に役立つ可能性がある。両アプローチが同等のベースラインで改善されているのに対して,LLMを生成プランナーとして使用すると,相互作用が大幅に減少することを示す。
論文参考訳（メタデータ） (2024-12-09T02:51:21Z)
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。 EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文参考訳（メタデータ） (2024-12-05T18:57:23Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering [48.55956886819481]
異なる役割を持つ複数のエージェントに基づくモジュール型マルチLMMエージェントフレームワークを提案する。具体的には、ビデオを通して"Traverse"計画を作成する方法であるTraveLERを提案する。提案したTraveLERアプローチは、特定のデータセットを微調整することなく、複数のVideoQAベンチマークのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2024-04-01T20:58:24Z)
Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-05T08:26:33Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。 MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-09-30T00:10:14Z)
SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models [60.171444066848856]
本研究では,スプレッドシートの要求を満たすために自然言語処理と制御を行うスプレッドシートコパイロットエージェントを提案する。 221のスプレッドシート制御タスクを含む代表データセットをキュレートし,完全自動評価パイプラインを構築した。当社の SheetCopilot は1世代で44.3% のタスクを正しく完了し、強力なコード生成ベースラインを広いマージンで上回っている。
論文参考訳（メタデータ） (2023-05-30T17:59:30Z)
AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文参考訳（メタデータ） (2023-05-26T05:52:27Z)
AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文参考訳（メタデータ） (2023-05-24T11:52:23Z)
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents [26.78244595330595]
「$underlineD$escribe」は、Large Language Models(LLMs)に基づく対話型計画手法である。 DEPSは、計画実行プロセスの$textitdescription$を統合することで、初期LLM生成の$textitplan$のエラー修正を容易にする。実験は、70以上のMinecraftタスクを確実に達成できる最初のゼロショットマルチタスクエージェントのマイルストーンとなる。
論文参考訳（メタデータ） (2023-02-03T06:06:27Z)
LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models [27.318186938382233]
本研究では,大規模言語モデル(LLM)を具体化エージェントのプランナーとして用いることに焦点を当てた。そこで本研究では,大規模言語モデルのパワーを活かして少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。
論文参考訳（メタデータ） (2022-12-08T05:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。