論文の概要: LLM-BABYBENCH: Understanding and Evaluating Grounded Planning and Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2505.12135v1
- Date: Sat, 17 May 2025 20:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.057384
- Title: LLM-BABYBENCH: Understanding and Evaluating Grounded Planning and Reasoning in LLMs
- Title(参考訳): LLM-BABYBENCH:LLMにおける地中計画と推論の理解と評価
- Authors: Omar Choukrani, Idriss Malek, Daniil Orel, Zhuohan Xie, Zangir Iklassov, Martin Takáč, Salem Lahlou,
- Abstract要約: $textbfLLM-BabyBench$は、対話環境の制約の中で計画と推論を行う大規模言語モデルの能力を評価するためのベンチマークスイートである。
このスイートは、手続き的に生成されたBabyAIグリッド世界のテキスト適応に基づいて構築され、LLMを地上知能の3つの基本的な側面に基づいて評価する。
- 参考スコア(独自算出の注目度): 2.1164936096078515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the capacity of Large Language Models (LLMs) to plan and reason within the constraints of interactive environments is crucial for developing capable AI agents. We introduce $\textbf{LLM-BabyBench}$, a new benchmark suite designed specifically for this purpose. Built upon a textual adaptation of the procedurally generated BabyAI grid world, this suite evaluates LLMs on three fundamental aspects of grounded intelligence: (1) predicting the consequences of actions on the environment state ($\textbf{Predict}$ task), (2) generating sequences of low-level actions to achieve specified objectives ($\textbf{Plan}$ task), and (3) decomposing high-level instructions into coherent subgoal sequences ($\textbf{Decompose}$ task). We detail the methodology for generating the three corresponding datasets ($\texttt{LLM-BabyBench-Predict}$, $\texttt{-Plan}$, $\texttt{-Decompose}$) by extracting structured information from an expert agent operating within the text-based environment. Furthermore, we provide a standardized evaluation harness and metrics, including environment interaction for validating generated plans, to facilitate reproducible assessment of diverse LLMs. Initial baseline results highlight the challenges posed by these grounded reasoning tasks. The benchmark suite, datasets, data generation code, and evaluation code are made publicly available ($\href{https://github.com/choukrani/llm-babybench}{\text{GitHub}}$, $\href{https://huggingface.co/datasets/salem-mbzuai/LLM-BabyBench}{\text{HuggingFace}}$).
- Abstract(参考訳): 対話的な環境の制約の中で計画と推論を行うためのLLM(Large Language Models)の能力を評価することは、有能なAIエージェントの開発に不可欠である。
この目的のために設計された新しいベンチマークスイートである$\textbf{LLM-BabyBench}$を紹介します。
1)環境状態(\textbf{Predict}$ task)に対するアクションの結果を予測すること、(2)指定された目的を達成するための低レベルのアクションのシーケンスを生成すること("\textbf{Plan}$ task")、(3)コヒーレントなサブゴールシーケンスに高レベルの命令を分解すること("\textbf{Decompose}$ task")である。
テキストベースの環境で動作する専門家エージェントから構造化情報を抽出することにより、対応する3つのデータセット(\texttt{LLM-BabyBench-Predict}$, $\texttt{-Plan}$, $\textt{-Decompose}$)を生成する方法論を詳述する。
さらに,多種多様なLCMの再現性評価を容易にするため,環境相互作用を含む標準化された評価ハーネスとメトリクスを提供する。
最初のベースラインの結果は、これらの基礎となる推論タスクによって引き起こされる課題を浮き彫りにする。
ベンチマークスイート、データセット、データ生成コード、評価コードが公開されている($\href{https://github.com/choukrani/llm-babybench}{\text{GitHub}}$, $\href{https://huggingface.co/datasets/salem-mbzuai/LLM-BabyBench}{\text{HuggingFace}}$)。
関連論文リスト
- DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z) - Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents [26.78244595330595]
「$underlineD$escribe」は、Large Language Models(LLMs)に基づく対話型計画手法である。
DEPSは、計画実行プロセスの$textitdescription$を統合することで、初期LLM生成の$textitplan$のエラー修正を容易にする。
実験は、70以上のMinecraftタスクを確実に達成できる最初のゼロショットマルチタスクエージェントのマイルストーンとなる。
論文 参考訳(メタデータ) (2023-02-03T06:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。