論文の概要: Revisiting the Travel Planning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.03308v1
- Date: Tue, 05 May 2026 02:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.738297
- Title: Revisiting the Travel Planning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの旅行計画能力の再検討
- Authors: Bo-Wen Zhang, Jin Ye, Peng-Yu Hua, Jia-Wei Cao, Jie-Jing Shao, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 旅行計画は,emphConstraint extract, emphTool Use, emphPlan Generation, emphError Identification, emphError Correctionの5つのサブ機能に分割する。
LLMは明示的な制約を抽出するのに熟練しているが、暗黙のオープンワールド要件を推測するのに苦労している。
- 参考スコア(独自算出の注目度): 22.520715389751828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Travel planning serves as a critical task for long-horizon reasoning, exposing significant deficits in LLMs. However, existing benchmarks and evaluations primarily assess final plans in an end-to-end manner, which lacks interpretability and makes it difficult to analyze the root causes of failures. To bridge this gap, we decompose travel planning into five constituent atomic sub-capabilities, including \emph{Constraint Extraction}, \emph{Tool Use}, \emph{Plan Generation}, \emph{Error Identification}, and \emph{Error Correction}. We implement a decoupled evaluation protocol leveraging oracle intermediate contexts to rigorously isolate these components, thereby measuring the atomic performance boundary without the noise of cascading errors. Our results highlight a clear contrast in performance: while LLMs are proficient in extracting explicit constraints, they struggle to infer implicit, open-world requirements. Furthermore, they exhibit structural biases in plan generation and suffer from ineffective self-correction, characterized by excessive sensitivity and erroneous persistence. These findings offer precise directions for improving LLM reasoning and planning abilities.
- Abstract(参考訳): 旅行計画は長期の推論にとって重要な課題であり、LLMの重大な欠陥を露呈している。
しかし、既存のベンチマークと評価は主に最終計画をエンドツーエンドで評価し、解釈可能性に欠け、失敗の根本原因を分析するのが難しくなる。
このギャップを埋めるために、旅行プランニングを、 \emph{Constraint extract}、 \emph{Tool Use}、 \emph{Plan Generation}、 \emph{Error Identification}、 \emph{Error Correction} の5つの構成要素に分解する。
オラクル中間コンテキストを利用してこれらのコンポーネントを厳密に分離し、カスケードエラーのノイズを伴わずに原子性能境界を計測する疎結合評価プロトコルを実装した。
LLMは明示的な制約を抽出するのに熟練しているが、暗黙のオープンワールド要件を推測するのに苦労している。
さらに、彼らは計画生成における構造的バイアスを示し、過度な感度と誤った持続性を特徴とする非効率な自己補正に苦しむ。
これらの知見は,LSM推論と計画能力を向上させるための正確な方向を提供する。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文 参考訳(メタデータ) (2026-02-02T13:46:56Z) - Why Reasoning Fails to Plan: A Planning-Centric Analysis of Long-Horizon Decision Making in LLM Agents [42.09897801169138]
大規模言語モデル(LLM)に基づくエージェントは、短い地平線上でのステップバイステップ推論能力を示すが、長い計画地平線上でのコヒーレントな振舞いを維持できないことが多い。
我々は、ステップワイズ推論は、短い地平線に適しているが、長期計画では失敗するステップワイズ欲求政策の形式を誘導すると主張する。
我々は、FLAREを将来の計画の最小限のインスタンス化として導入し、明示的なルックアヘッド、価値伝播、限定的なコミットメントを1つのモデルで実施する。
論文 参考訳(メタデータ) (2026-01-29T20:52:32Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。
PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-07T12:38:56Z) - CoFineLLM: Conformal Finetuning of LLMs for Language-Instructed Robot Planning [31.40208712412789]
言語モデル(LLM)は、言語に指示されたエージェントのプランナーとして登場した。
しばしば、過度に信頼され、間違ったアウトプットを生み出す。
我々は,LCMベースのプランナのためのCP対応ファインタニングフレームワークであるCoFineLLMを紹介する。
論文 参考訳(メタデータ) (2025-11-09T23:38:25Z) - LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language [24.878171308728145]
自然言語ベース(Lexi)制約付き(Con)計画ベンチマークであるLexiConを紹介した。
LexiConの背景にある基本的な考え方は、既存の計画環境を取り入れ、州に時間的制約を課すことだ。
GPT-5, o3, R1 などの推論モデルを含む最先端 LLM の性能は, 計画課題の制約度が増大するにつれて低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-07T14:28:30Z) - HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance [11.621973074884002]
HiPlanは、大規模言語モデル(LLM)ベースのエージェントのための階層的計画フレームワークである。
複雑なタスクを、一般的な方向のためのマイルストーンアクションガイドと、詳細なアクションのためのステップワイズヒントに分解する。
オフラインのフェーズでは、専門家によるデモンストレーションからマイルストーンライブラリを構築し、構造化されたエクスペリエンスの再利用を可能にします。
実行フェーズでは、過去のマイルストーンからの軌道セグメントを動的に適応してステップワイズヒントを生成する。
論文 参考訳(メタデータ) (2025-08-26T14:37:48Z) - LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics [3.3890411643175646]
大規模言語モデル(LLM)はゼロショットと単一ステップの推論と意思決定の問題において有望であることを示している。
LogicGuardは,LLMアクターを軌跡レベルのLCM評論家に案内するモジュール型アクター・クリティックアーキテクチャである。
我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
論文 参考訳(メタデータ) (2025-07-04T04:53:53Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。