論文の概要: REALM-Bench: A Real-World Planning Benchmark for LLMs and Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2502.18836v1
- Date: Wed, 26 Feb 2025 05:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:24:46.387521
- Title: REALM-Bench: A Real-World Planning Benchmark for LLMs and Multi-Agent Systems
- Title(参考訳): REALM-Bench: LLMとマルチエージェントシステムのための実世界の計画ベンチマーク
- Authors: Longling Geng, Edward Y. Chang,
- Abstract要約: このスイートは、基本的なものから非常に複雑なものへと進化する11の設計された問題を含んでいる。
それぞれの問題は、並列計画スレッドの数、依存性間の複雑さ、予期せぬディスラプションの頻度の3つの次元に沿ってスケールすることができる。
このベンチマークは、現実世界のアプリケーションのためのより堅牢で適応可能なAI計画システムの開発を進めることを目的としている。
- 参考スコア(独自算出の注目度): 2.1331883629523634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This benchmark suite provides a comprehensive evaluation framework for assessing both individual LLMs and multi-agent systems in real-world planning scenarios. The suite encompasses eleven designed problems that progress from basic to highly complex, incorporating key aspects such as multi-agent coordination, inter-agent dependencies, and dynamic environmental disruptions. Each problem can be scaled along three dimensions: the number of parallel planning threads, the complexity of inter-dependencies, and the frequency of unexpected disruptions requiring real-time adaptation. The benchmark includes detailed specifications, evaluation metrics, and baseline implementations using contemporary frameworks like LangGraph, enabling rigorous testing of both single-agent and multi-agent planning capabilities. Through standardized evaluation criteria and scalable complexity, this benchmark aims to drive progress in developing more robust and adaptable AI planning systems for real-world applications.
- Abstract(参考訳): このベンチマークスイートは、現実の計画シナリオにおいて、個々のLCMとマルチエージェントシステムの両方を評価するための包括的な評価フレームワークを提供する。
このスイートは、基本から高度に複雑に進化する11の設計問題を含み、マルチエージェント調整、エージェント間の依存関係、動的環境破壊といった重要な側面を取り入れている。
各問題は、並列計画スレッドの数、依存性間の複雑さ、そしてリアルタイム適応を必要とする予期せぬディスラプションの頻度の3つの次元に沿ってスケールすることができる。
ベンチマークには、LangGraphのような現代的なフレームワークを使用した詳細な仕様、評価メトリクス、ベースライン実装が含まれており、単一エージェントとマルチエージェントの計画機能の厳格なテストを可能にする。
このベンチマークは、標準化された評価基準とスケーラブルな複雑さを通じて、現実世界のアプリケーションのためのより堅牢で適応可能なAI計画システムの開発の進歩を促進することを目的としている。
関連論文リスト
- PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - Hierarchical Planning for Complex Tasks with Knowledge Graph-RAG and Symbolic Verification [5.727096041675994]
大型言語モデル(LLM)はロボットプランナーとして約束されているが、長い水平と複雑なタスクでしばしば苦労している。
本稿では,階層的計画生成のための知識グラフに基づくRAGを用いて,LLMベースのプランナを強化するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-06T18:36:30Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - Parallelized Planning-Acting for Efficient LLM-based Multi-Agent Systems [31.894636711684523]
マルチエージェントシステムのための並列化計画実行フレームワークを提案する。
提案するフレームワークは、同時計画と動作を可能にする割り込み可能な実行を備えたデュアルスレッドアーキテクチャを備えている。
論文 参考訳(メタデータ) (2025-03-05T13:53:10Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。
具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (2025-02-22T06:21:56Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Multi-Agent Planning Using Visual Language Models [2.2369578015657954]
大規模言語モデル(LLM)とビジュアル言語モデル(VLM)は、様々なドメインやタスクにわたるパフォーマンスとアプリケーションの改善により、関心を集めている。
LLMとVLMは、特に問題領域の深い理解が必要な場合、誤った結果をもたらす。
本稿では,特定のデータ構造を入力として必要とせずに動作可能なマルチエージェント型タスクプランニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:10:17Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and Agent Generation [41.21899915378596]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。