Fugu-MT 論文翻訳(概要): Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning

論文の概要: Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning

arxiv url: http://arxiv.org/abs/2310.03249v2
Date: Wed, 7 Feb 2024 20:18:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 19:13:25.076172
Title: Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning
Title（参考訳）: 大規模言語モデルは良いパスプランナーになれるか? 時空間推論のベンチマークと検討
Authors: Mohamed Aghzal, Erion Plaku, Ziyu Yao
Abstract要約: 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めた。我々は、$textbfP$ath $textbfP$lanning from $textbfN$atural $textbfL$anguageという新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 10.633920029087676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved remarkable success across a wide spectrum of tasks; however, they still face limitations in scenarios that demand long-term planning and spatial reasoning. To facilitate this line of research, in this work, we propose a new benchmark, termed $\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage ($\textbf{PPNL}$). Our benchmark evaluates LLMs' spatial-temporal reasoning by formulating ''path planning'' tasks that require an LLM to navigate to target locations while avoiding obstacles and adhering to constraints. Leveraging this benchmark, we systematically investigate LLMs including GPT-4 via different few-shot prompting methodologies as well as BART and T5 of various sizes via fine-tuning. Our experimental results show the promise of few-shot GPT-4 in spatial reasoning, when it is prompted to reason and act interleavedly, although it still fails to perform long-term temporal reasoning. In contrast, while fine-tuned LLMs achieved impressive results on in-distribution reasoning tasks, they struggled to generalize to larger environments or environments with more obstacles.
Abstract（参考訳）: 大規模言語モデル(LLM)は幅広いタスクで顕著な成功を収めているが、長期的な計画や空間的推論を必要とするシナリオでは制限に直面している。この一連の研究を容易にするため、本研究では、$\textbf{P}$ath $\textbf{P}$lanning from $\textbf{N}$atural $\textbf{L}$anguage$\textbf{PPNL}$lanningという新しいベンチマークを提案する。本ベンチマークでは, LLMの目標地点への移動に必要な「経路計画」タスクを定式化し, 障害物を回避し, 制約を順守することにより, LLMの時空間推論を評価する。本ベンチマークを応用し, GPT-4 などの LLM と BART および T5 を微調整により系統的に検討した。実験の結果, 長期の時間的推論には至っていないものの, 空間的推論におけるgpt-4の有望性が示唆された。対照的に、微調整されたllmは分散推論タスクで素晴らしい結果を得たが、より障害のあるより大きな環境や環境への一般化に苦労した。

関連論文リスト

Limited Reasoning Space: The cage of long-horizon reasoning in LLMs [13.848126962400878]
この研究は、より大きな計算予算を持つ推論失敗は静的計画法に由来するという仮説を立てている。計画のためのモデル予測制御フレームワークHaloを提案する。
論文参考訳（メタデータ） (2026-02-22T17:28:27Z)
Language-based Trial and Error Falls Behind in the Era of Experience [50.503828360874536]
大きな言語モデル(LLM)は、言語ベースのエージェントタスクでは優れているが、見つからない非言語環境への適用性は依然として限られている。本研究では,探索の禁止コストが主なボトルネックであることを示す。セマンティック・エクスプロイトから探索を分離する新しいフレームワークであるSCOUTを提案する。
論文参考訳（メタデータ） (2026-01-29T14:08:41Z)
Enhancing Long Chain-of-Thought Reasoning through Multi-Path Plan Aggregation [32.86351316550696]
我々は、生の長いCoTを分析し、計画と実行ステップからなる推論階層を明らかにする。本研究の目的は,計画探索と集約による単一パス推論を増強するMPPA(Multi-Path Plan Aggregation)を提案することである。これを解決するために, Twisted Sequential Monte Carlo (TSMC) を利用するプロセスレベルの優先度最適化スキームであるStep-DPOを導入する。
論文参考訳（メタデータ） (2025-10-13T17:02:41Z)
PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [75.04864582433879]
PlanQAは、大規模言語モデルにおける幾何学的および空間的推論を評価するための診断ベンチマークである。このベンチマークでは、計量やトポロジカルな推論だけでなく、内部設計の制約もテストする多様な質問タイプが明らかになった。
論文参考訳（メタデータ） (2025-07-10T11:16:48Z)
Time's Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint [20.685932824324446]
本研究では,Large Language Models (LLMs) の推論能力が実世界の遅延制約下で有効であるかどうかを考察する。具体的には、幅広い出力長予算の下で、共通推論データセット上で25以上のLLMをテストする。その結果,LCM推論の予算対応について,いくつかの興味深い知見が得られた。
論文参考訳（メタデータ） (2025-04-19T16:32:28Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。我々はこの目的のために特別に設計されたアプローチである我々の提案する。人類の専門家や先進的なモデルによるデータに依存する従来のアプローチと比べて優れたパフォーマンスを達成しています
論文参考訳（メタデータ） (2024-11-12T19:53:00Z)
FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文参考訳（メタデータ） (2024-10-14T19:39:11Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文参考訳（メタデータ） (2024-06-17T18:12:56Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文参考訳（メタデータ） (2024-03-22T17:50:43Z)
LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。 LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文参考訳（メタデータ） (2023-10-18T14:53:14Z)
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文参考訳（メタデータ） (2023-09-29T16:36:39Z)
Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。 LLMには、世界を予測するための$textitworldモデルがない。我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文参考訳（メタデータ） (2023-05-24T10:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。