論文の概要: Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions
- arxiv url: http://arxiv.org/abs/2503.02238v1
- Date: Tue, 04 Mar 2025 03:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:02.934237
- Title: Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions
- Title(参考訳): Haste Makes Wastes: 時間制約による効率的なマルチタスクのためのLCMの計画能力の評価
- Authors: Zirui Wu, Xiao Liu, Jiayi Li, Lingpeng Kong, Yansong Feng,
- Abstract要約: 本稿では,現実の調理シナリオに基づいた新しいベンチマークフレームワークRecipe2Planを紹介する。
従来のベンチマークとは異なり、Recipe2Planは並列タスク実行による調理時間を最適化するためにエージェントに挑戦する。
- 参考スコア(独自算出の注目度): 56.88110850242265
- License:
- Abstract: While Large Language Model-based agents have demonstrated substantial progress in task completion, existing evaluation benchmarks tend to overemphasize single-task performance, with insufficient attention given to the crucial aspects of multitask planning and execution efficiency required in real-world scenarios. To bridge this gap, we present Recipe2Plan, a novel benchmark framework based on real-world cooking scenarios. Unlike conventional benchmarks, Recipe2Plan challenges agents to optimize cooking time through parallel task execution while respecting temporal constraints i.e. specific actions need to be performed within a particular time intervals following the preceding steps. Overly aggressive local parallelization may disrupt this constraint, potentially compromising the entire cooking process. This strict time constraint between actions raises a unique challenge for agents to balance between maximizing concurrent operations and adhering to critical timing constraints. Extensive experiments with state-of-the-art models reveal challenges in maintaining this balance between efficiency and feasibility. The results highlight the need for improved temporal awareness and global multitasking capabilities in large language models. We open-source our benchmark and code at https://github.com/WilliamZR/Recipe2Plan.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントはタスク完了の著しい進歩を示しているが、既存の評価ベンチマークは、マルチタスク計画と実際のシナリオで必要とされる実行効率の重要な側面に十分な注意を払っているため、シングルタスクのパフォーマンスを過度に強調する傾向がある。
このギャップを埋めるために、現実世界の調理シナリオに基づいた新しいベンチマークフレームワークであるRecipe2Planを紹介します。
従来のベンチマークとは異なり、Recipe2Planはエージェントに対して並列タスク実行による調理時間を最適化し、時間的制約を尊重する。
過度に攻撃的な局所並列化は、この制約を乱し、調理プロセス全体を複雑にする可能性がある。
このアクション間の厳密な時間制約は、エージェントが並行処理の最大化と重要なタイミング制約への固執のバランスをとるというユニークな課題を引き起こす。
最先端モデルによる大規模な実験は、この効率性と実現可能性のバランスを維持する上での課題を明らかにしている。
その結果、大規模言語モデルにおける時間的認識とグローバルなマルチタスク機能の改善の必要性が浮き彫りになった。
ベンチマークとコードはhttps://github.com/WilliamZR/Recipe2Plan.orgで公開しています。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Multi-Step Time Series Inference Agent for Reasoning and Automated Task Execution [19.64976935450366]
本稿では,合成推論と時系列解析の精度の両方を必要とする多段階時系列推論という新しいタスクを提案する。
テキスト内学習、自己補正、プログラム支援実行を統合することで、提案手法は正確かつ解釈可能な結果を保証する。
論文 参考訳(メタデータ) (2024-10-05T06:04:19Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Enhancing Temporal Planning Domains by Sequential Macro-actions
(Extended Version) [2.064612766965483]
時間計画は、行動の同時実行と時間的制約との整合を含む古典的な計画の拡張である。
我々の研究は、得られた計画の適用性を保証するシーケンシャルな時間的マクロアクションの一般的な概念に貢献している。
本実験は,テストプランナーとドメインの大部分の計画品質だけでなく,得られた満足度プランも改善した。
論文 参考訳(メタデータ) (2023-07-22T13:50:34Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - Efficient Temporal Piecewise-Linear Numeric Planning with Lazy
Consistency Checking [4.834203844100679]
本稿では,プランナがLP整合性チェックを可能な限り遅延的に計算できる手法を提案する。
また,時間依存ゴールチェックをより選択的に行うアルゴリズムを提案する。
結果として得られるプランナーは、より効率的であるだけでなく、最先端の時間数値とハイブリッドプランナーよりも優れています。
論文 参考訳(メタデータ) (2021-05-21T07:36:54Z) - Multi-Task Time Series Forecasting With Shared Attention [15.294939035413217]
マルチタスク時系列予測のための2つの自己注目型共有方式を提案する。
提案アーキテクチャは,最先端の単一タスク予測ベースラインを上回るだけでなく,RNNベースのマルチタスク予測手法よりも優れている。
論文 参考訳(メタデータ) (2021-01-24T04:25:08Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Distributed Primal-Dual Optimization for Online Multi-Task Learning [22.45069527817333]
本稿では,対数学習におけるタスク固有のノイズを捕捉し,実行時効率でプロジェクションフリーな更新を行う適応的原始双対アルゴリズムを提案する。
我々のモデルは、エネルギー不足や帯域制限のあるタスクが更新を延期できるようにするため、分散型の周期接続タスクに適しています。
実験結果から,提案モデルが実世界の様々なデータセットに対して極めて有効であることが確認された。
論文 参考訳(メタデータ) (2020-04-02T23:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。