論文の概要: Iti-Validator: A Guardrail Framework for Validating and Correcting LLM-Generated Itineraries
- arxiv url: http://arxiv.org/abs/2510.24719v1
- Date: Thu, 04 Sep 2025 06:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.117758
- Title: Iti-Validator: A Guardrail Framework for Validating and Correcting LLM-Generated Itineraries
- Title(参考訳): Iti-Validator: LLM生成イテレーションの検証と修正のためのガードレールフレームワーク
- Authors: Shravan Gadbail, Masumi Desai, Kamalakar Karlapalem,
- Abstract要約: 本研究では,多言語モデル(LLM)の時間的性能について検討する。
LLM生成した旅行経路の時間的一貫性を評価し改善する検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has enabled them to generate complex, multi-step plans and itineraries. However, these generated plans often lack temporal and spatial consistency, particularly in scenarios involving physical travel constraints. This research aims to study the temporal performance of different LLMs and presents a validation framework that evaluates and improves the temporal consistency of LLM-generated travel itineraries. The system employs multiple state-of-the-art LLMs to generate travel plans and validates them against real-world flight duration constraints using the AeroDataBox API. This work contributes to the understanding of LLM capabilities in handling complex temporal reasoning tasks like itinerary generation and provides a framework to rectify any temporal inconsistencies like overlapping journeys or unrealistic transit times in the itineraries generated by LLMs before the itinerary is given to the user. Our experiments reveal that while current LLMs frequently produce temporally inconsistent itineraries, these can be systematically and reliably corrected using our framework, enabling their practical deployment in large-scale travel planning.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、複雑な多段階計画と反復を生成することが可能になった。
しかしながら、これらの生成された計画はしばしば時間的・空間的な整合性を欠いている。
本研究の目的は,異なるLCMの時間的性能について検討し,LCM生成した旅行経路の時間的一貫性を評価し,改善する検証フレームワークを提案することである。
このシステムは複数の最先端のLCMを使用して旅行計画を生成し、AeroDataBox APIを使用して実際の飛行時間制限に対して検証する。
この研究は、反復生成のような複雑な時間的推論タスクの処理におけるLLMの機能の理解に寄与し、反復処理がユーザに与えられる前に、重複する旅路やLLMが生成する並行処理における非現実的なトランジットタイムのような時間的不整合を是正するフレームワークを提供する。
実験の結果,現在のLCMは時間的に一貫性のない並行処理を頻繁に生成するが,これらは我々のフレームワークを用いて系統的かつ確実な修正が可能であり,大規模旅行計画の実践的展開を可能にしていることがわかった。
関連論文リスト
- Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints [39.01715254437105]
本稿では,多面制約による計画課題を解決するための多面計画(MAoP)について紹介する。
MAoPは直接計画するのではなく、ストラテジストを活用して、さまざまな側面から事前計画を行い、プランナーのための計画青写真を提供する。
論文 参考訳(メタデータ) (2025-06-14T09:37:59Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Asynchronous Large Language Model Enhanced Planner for Autonomous Driving [26.72215912937613]
AsyncDriverは、リアルタイムプランナーが正確に制御可能な軌道予測を行うための新しいフレームワークである。
推論周波数の非同期性に乗じて,LLMが導入した計算コストの削減に成功している。
実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-20T17:59:03Z) - TRIP-PAL: Travel Planning with Guarantees by Combining Large Language Models and Automated Planners [6.378824981027464]
伝統的なアプローチは、与えられた形式言語における問題定式化に依存している。
最近のLarge Language Model (LLM) ベースのアプローチは、言語を使用してユーザリクエストから計画を直接出力する。
LLMと自動プランナの強度を組み合わせたハイブリッド手法TRIP-PALを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:31:16Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。