論文の概要: Learning to Plan with Personalized Preferences
- arxiv url: http://arxiv.org/abs/2502.00858v1
- Date: Sun, 02 Feb 2025 17:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:21.148582
- Title: Learning to Plan with Personalized Preferences
- Title(参考訳): パーソナライズされた選好でプランニングを学ぶ
- Authors: Manjie Xu, Xinyi Yang, Wei Liang, Chi Zhang, Yixin Zhu,
- Abstract要約: PbP(Preference-based Planning)ベンチマークは、原子のアクションから複雑なシーケンスにまたがる数百のさまざまな好みを具現化したベンチマークである。
我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。
これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
- 参考スコア(独自算出の注目度): 27.972543891602033
- License:
- Abstract: Effective integration of AI agents into daily life requires them to understand and adapt to individual human preferences, particularly in collaborative roles. Although recent studies on embodied intelligence have advanced significantly, they typically adopt generalized approaches that overlook personal preferences in planning. We address this limitation by developing agents that not only learn preferences from few demonstrations but also learn to adapt their planning strategies based on these preferences. Our research leverages the observation that preferences, though implicitly expressed through minimal demonstrations, can generalize across diverse planning scenarios. To systematically evaluate this hypothesis, we introduce Preference-based Planning (PbP) benchmark, an embodied benchmark featuring hundreds of diverse preferences spanning from atomic actions to complex sequences. Our evaluation of SOTA methods reveals that while symbol-based approaches show promise in scalability, significant challenges remain in learning to generate and execute plans that satisfy personalized preferences. We further demonstrate that incorporating learned preferences as intermediate representations in planning significantly improves the agent's ability to construct personalized plans. These findings establish preferences as a valuable abstraction layer for adaptive planning, opening new directions for research in preference-guided plan generation and execution.
- Abstract(参考訳): AIエージェントを日々の生活に効果的に統合するには、特に協力的な役割において、個々の人間の好みを理解し、適応する必要がある。
近年の具体的インテリジェンスの研究は著しく進歩しているが、計画における個人の好みを無視する一般化されたアプローチを採用するのが一般的である。
この制限に対処するために、少数のデモンストレーションから好みを学習するだけでなく、これらの好みに基づいて計画戦略を適応させるエージェントを開発する。
我々の研究は、最小限のデモンストレーションによって暗黙的に表現される嗜好が、様々な計画シナリオにまたがって一般化できるという観察を活用している。
この仮説を体系的に評価するために、原子間相互作用から複雑なシーケンスにまたがる数百の多様な嗜好を具現化したベンチマークであるPreference-based Planning (PbP)ベンチマークを導入する。
我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。
さらに、学習嗜好を中間表現として取り入れることで、エージェントのパーソナライズされた計画構築能力が大幅に向上することを示す。
これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
関連論文リスト
- Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Interactive Joint Planning for Autonomous Vehicles [19.479300967537675]
対話的な運転シナリオでは、あるエージェントの行動が隣人の行動に大きな影響を及ぼす。
本稿では,MPCを学習予測モデルでブリッジする対話型共同計画(Interactive Joint Planning, IJP)を提案する。
IJPは、共同最適化やサンプリングベースの計画を実行することなく、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-27T17:48:25Z) - Probabilistic Planning with Partially Ordered Preferences over Temporal
Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。
本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。
構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:13:24Z) - Adaptive Selection of Informative Path Planning Strategies via
Reinforcement Learning [6.015556590955814]
ローカルプランニング」アプローチでは,次回のサンプリング場所の優先順位が予測性能や帰路距離に与える影響を調査するために,様々な空間範囲が採用されている。
温度モニタリングロボットの使用事例実験により、プランナーの動的混合物は高度な情報プランを生成できるだけでなく、予測信頼性を犠牲にすることなく、大幅に距離を縮めることができることが示された。
論文 参考訳(メタデータ) (2021-08-14T21:32:33Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。