論文の概要: PlanCritic: Formal Planning with Human Feedback
- arxiv url: http://arxiv.org/abs/2412.00300v1
- Date: Sat, 30 Nov 2024 00:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:21.022215
- Title: PlanCritic: Formal Planning with Human Feedback
- Title(参考訳): PlanCritic: フィードバックによる形式的計画
- Authors: Owen Burns, Dana Hughes, Katia Sycara,
- Abstract要約: 現実の計画問題は、しばしば複雑すぎて、1人の無知の人間によって効果的に取り組まれない。
最近の研究は、複雑な領域における人間を支援する共同計画システムの開発に重点を置いている。
我々は、より広範な協調計画システムの一環として、フィードバック駆動型計画批判を提示する。
- 参考スコア(独自算出の注目度): 0.994853090657971
- License:
- Abstract: Real world planning problems are often too complex to be effectively tackled by a single unaided human. To alleviate this, some recent work has focused on developing a collaborative planning system to assist humans in complex domains, with bridging the gap between the system's problem representation and the real world being a key consideration. Transferring the speed and correctness formal planners provide to real-world planning problems is greatly complicated by the dynamic and online nature of such tasks. Formal specifications of task and environment dynamics frequently lack constraints on some behaviors or goal conditions relevant to the way a human operator prefers a plan to be carried out. While adding constraints to the representation with the objective of increasing its realism risks slowing down the planner, we posit that the same benefits can be realized without sacrificing speed by modeling this problem as an online preference learning task. As part of a broader cooperative planning system, we present a feedback-driven plan critic. This method makes use of reinforcement learning with human feedback in conjunction with a genetic algorithm to directly optimize a plan with respect to natural-language user preferences despite the non-differentiability of traditional planners. Directly optimizing the plan bridges the gap between research into more efficient planners and research into planning with language models by utilizing the convenience of natural language to guide the output of formal planners. We demonstrate the effectiveness of our plan critic at adhering to user preferences on a disaster recovery task, and observe improved performance compared to an llm-only neurosymbolic approach.
- Abstract(参考訳): 現実の計画問題は、しばしば複雑すぎて、1人の無知の人間によって効果的に取り組まれない。
これを軽減するために、最近の研究は、複雑なドメインにおける人間を支援する共同計画システムの開発に重点を置いており、システムの問題表現と現実世界のギャップを埋めることが重要な考慮事項となっている。
このようなタスクの動的・オンライン的な性質により,計画のスピードと正確性は現実の計画問題に大きく複雑である。
タスクおよび環境力学の形式的な仕様は、人間のオペレーターが計画を実行する方法に関連するいくつかの行動や目標条件にしばしば制約を欠いている。
現実主義的リスクを高めることを目的とした表現に制約を加えることで、プランナーを減速させる一方で、この問題をオンラインの嗜好学習タスクとしてモデル化することで、スピードを犠牲にすることなく、同じ利点を実現できると仮定する。
より広範な協調計画システムの一環として、フィードバック駆動型計画批判を提示する。
本手法は,従来のプランナーの非微分性にも拘わらず,自然言語利用者の嗜好を直接最適化する遺伝的アルゴリズムと協調して,人間のフィードバックによる強化学習を利用する。
計画の最適化は、より効率的なプランナーの研究と、自然言語の利便性を活用して形式的なプランナーのアウトプットを導くことによって、言語モデルによる計画研究のギャップを埋める。
本研究では,災害復旧作業におけるユーザの嗜好に固執する計画批判の有効性を実証し,llmのみのニューロシンボリックアプローチと比較して,改善されたパフォーマンスを観察する。
関連論文リスト
- Optimal Integrated Task and Path Planning and Its Application to
Multi-Robot Pickup and Delivery [10.530860023128406]
本稿では,最適なタスクプランナと最適なパスプランナを組み合わせた,汎用的なマルチロボット計画機構を提案する。
統合プランナーは、タスクプランナーとパスプランナーの相互作用を通じて、ロボットに対して最適な衝突のない軌道を生成する。
論文 参考訳(メタデータ) (2024-03-02T17:48:40Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - A Framework for Neurosymbolic Robot Action Planning using Large Language Models [3.0501524254444767]
本稿では,象徴的タスク計画と機械学習アプローチのギャップを埋めることを目的としたフレームワークを提案する。
大規模言語モデル(LLM)を計画ドメイン定義言語(PDDL)と互換性のあるニューロシンボリックタスクプランナーに訓練する根拠
選択されたドメインにおける予備的な結果から, (i) テストデータセットの95.5%の問題を1,000個のサンプルで解決し, (ii) 従来のシンボルプランナーよりも最大13.5%短いプランを作成し, (iii) 計画の可利用性の平均待ち時間を61.4%まで削減する。
論文 参考訳(メタデータ) (2023-03-01T11:54:22Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Bottom-up mechanism and improved contract net protocol for the dynamic
task planning of heterogeneous Earth observation resources [61.75759893720484]
地球観測資源は、災害救助、被害評価、関連する領域においてますます不可欠になりつつある。
観測要求の変更や悪天候の発生、資源の失敗など、予測できない多くの要因は、スケジュールされた観測計画が実行不可能になる可能性がある。
不均質な地球観測資源の動的タスク計画を容易にするため、ボトムアップ分散協調フレームワークと改良された契約網を提案する。
論文 参考訳(メタデータ) (2020-07-13T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。