論文の概要: Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning
- arxiv url: http://arxiv.org/abs/2310.03249v3
- Date: Mon, 24 Feb 2025 00:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:35.227075
- Title: Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning
- Title(参考訳): 大規模言語モデルは良いパスプランナーになれるか? : 時空間推論のベンチマークと検討
- Authors: Mohamed Aghzal, Erion Plaku, Ziyu Yao,
- Abstract要約: 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。
我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 9.461626534488117
- License:
- Abstract: Large language models (LLMs) have achieved remarkable success across a wide spectrum of tasks; however, they still face limitations in scenarios that demand long-term planning and spatial reasoning. To facilitate this line of research, in this work, we propose a new benchmark, termed $\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage ($\textbf{PPNL}$). Our benchmark evaluates LLMs' spatial-temporal reasoning by formulating ''path planning'' tasks that require an LLM to navigate to target locations while avoiding obstacles and adhering to constraints. Leveraging this benchmark, we systematically investigate LLMs including GPT-4 via different few-shot prompting methodologies as well as BART and T5 of various sizes via fine-tuning. Our experimental results show the promise of few-shot GPT-4 in spatial reasoning, when it is prompted to reason and act interleavedly, although it still fails to perform long-term temporal reasoning. In contrast, while fine-tuned LLMs achieved impressive results on in-distribution reasoning tasks, they struggled to generalize to larger environments or environments with more obstacles.
- Abstract(参考訳): 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めてきたが、長期的な計画や空間的推論を必要とするシナリオでは制限に直面している。
この一連の研究を容易にするため、本研究では、$\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage$\textbf{PPNL}$lanningという新しいベンチマークを提案する。
本ベンチマークでは, LLMの目標地点への移動に必要な「経路計画」タスクを定式化し, 障害物を回避し, 制約を順守することにより, LLMの時空間推論を評価する。
本ベンチマークを応用し, GPT-4 などの LLM と BART および T5 を微調整により系統的に検討した。
実験結果から,長期的時間的推論は行わないものの,空間的推論において数発のGPT-4が期待できることが示唆された。
対照的に、微調整されたLLMは、分散的推論タスクにおいて印象的な結果を得たが、より大きな環境やより障害のある環境への一般化に苦慮した。
関連論文リスト
- SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。
提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。
フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-17T18:12:56Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。