論文の概要: DisasterBench: Benchmarking LLM Planning under Typed Tool Interface Constraints
- arxiv url: http://arxiv.org/abs/2605.27957v1
- Date: Wed, 27 May 2026 04:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.751974
- Title: DisasterBench: Benchmarking LLM Planning under Typed Tool Interface Constraints
- Title(参考訳): DisasterBench: タイプドツールインターフェース制約下でのLLM計画のベンチマーク
- Authors: Zhitong Chen, Kai Yin, Weifeng Zhang, Zhiyuan Wang, Xiangjue Dong, Chengkai Liu, Zhewei Liu, Yiming Xiao, Ali Mostafavi, James Caverlee,
- Abstract要約: 災害は深刻な社会的影響を引き起こし、異種AIツールの迅速な調整を要求する。
効果的な調整には意味論的に妥当なツールを選択する以上のことが必要です。
本稿では,構造化マルチエージェント計画の評価ベンチマークであるDreamaBenchを紹介する。
- 参考スコア(独自算出の注目度): 29.573427850164222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disasters cause severe societal impacts, demanding rapid coordination of heterogeneous AI tools, from satellite analysis to flood prediction and damage assessment, into coherent multi-step workflows. As LLMs increasingly serve as orchestrators of such pipelines, effective coordination requires more than selecting semantically plausible tools: LLMs must generate executable workflows with correct parameter binding and dependency propagation. We introduce DisasterBench, a benchmark for evaluating structured multi-agent planning over semantically similar but operationally distinct disaster-response tools. To enable step-level failure attribution, we further propose First-Point-of-Failure (FPoF), which localizes the earliest root cause in a predicted workflow, separating primary errors from downstream cascading effects. Our evaluation reveals three findings: planning method effectiveness depends strongly on model capacity; tool mismatch and parameter-binding errors dominate first failures, revealing semantic grounding and execution consistency as distinct bottlenecks; and verbose intermediate reasoning can create instruction clash with structured output requirements, disrupting plan generation. Together, these findings highlight a fundamental gap between semantic reasoning and execution-grounded coordination, underscoring the need for planning frameworks that jointly model semantic intent, execution constraints, and workflow consistency. Code, data, and evaluation resources are available at: https://github.com/TamuChen18/DisasterBench_Open
- Abstract(参考訳): 災害は、衛星分析から洪水予測、損傷評価に至るまで、異種AIツールの迅速な調整を要求され、一貫性のあるマルチステップワークフローに深刻な社会的影響を引き起こす。
LLMはパイプラインのオーケストレータとしての役割をますます高めているため、効果的なコーディネーションには意味論的に妥当なツールの選択以上のものが必要である。
本稿では, 意味論的に類似しているが運用的に異なる災害対応ツールに対して, 構造化マルチエージェント計画を評価するためのベンチマークであるDreamaBenchを紹介する。
ステップレベルの障害帰属を可能にするために、予測ワークフローにおける最初期の根本原因をローカライズし、下流カスケード効果から一次エラーを分離するFirst-Point-of-Failure (FPoF)を提案する。
提案手法の有効性はモデルキャパシティに強く依存し, ツールミスマッチやパラメータ結合エラーが第一障害を支配し, セマンティックグラウンドと実行の一貫性を個別のボトルネックとして明らかにし, 冗長な中間推論は構造的出力要求との命令衝突を生じさせ, 計画生成を阻害する。
これらの知見は、セマンティック推論と実行基盤調整の根本的なギャップを強調し、セマンティックな意図、実行制約、ワークフローの一貫性を共同でモデル化するフレームワークの必要性を強調している。
コード、データ、評価リソースは、https://github.com/TamuChen18/DisasterBench_Openで入手できる。
関連論文リスト
- CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures [4.061481215870679]
フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。
CaulFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的な使用をサポートする。
論文 参考訳(メタデータ) (2026-05-25T01:47:01Z) - PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models [52.48858778580074]
計画は大規模言語モデル(LLM)の基本的な機能である
PlanningBenchは、評価とトレーニングの両方のためのスケーラブルで多様な検証可能な計画データを生成するためのフレームワークである。
論文 参考訳(メタデータ) (2026-05-20T08:10:15Z) - A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation [3.503249117641051]
本稿では3つのコアイノベーションを組み込んだ階層的誤り訂正グラフフレームワークfor AutonomousAgentswithLLM-BasedActionGeneration(HECG)を提案する。
MDTS:タスク品質指標(Q),信頼性/コスト指標(C),報酬指標(R),LLMに基づく意味推論スコア(LLM-Score)を統合することで,MDTSは定量的パフォーマンスと意味的コンテキストの多次元的アライメントを実現する。
EMC:単純な混乱行列や全体的なパフォーマンス指標とは異なり、EMCはエラーをStrategy Whe(Strategy Whe)やScript(Script)といった10のタイプに分類することで、タスク障害の構造化された属性を提供する。
論文 参考訳(メタデータ) (2026-03-09T13:46:00Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - CausalPlan: Empowering Efficient LLM Multi-Agent Collaboration Through Causality-Driven Planning [25.322580535468013]
CausalPlanは、明示的な構造因果推論を大規模言語モデル(LLM)計画プロセスに統合するフレームワークである。
我々は,5つのマルチエージェント調整タスクと4つのLLMの異なるサイズで,Overcooked-AIベンチマークでCausalPlanを評価した。
その結果、CausalPlanは不適切なアクションを一貫して削減し、AI-AIとヒューマン-AI設定の両方でのコラボレーションを改善していることがわかった。
論文 参考訳(メタデータ) (2025-08-19T10:37:20Z) - Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.913755431537592]
この作業では、ワークフロー計画問題の生成と評価のための完全に自動化されたパイプラインであるNL2Flowが導入されている。
NL2Flowは、構造化中間表現においてパラメトリックに問題を発生させ、それらを自然言語と形式PDDLの両方に翻訳する。
NL2Flowが生成した2296個の低微分問題に基づいて,オープンソースのインストラクション付きLLMを評価した。
論文 参考訳(メタデータ) (2025-07-03T03:02:49Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。