Fugu-MT 論文翻訳(概要): Learning to Plan with Personalized Preferences

論文の概要: Learning to Plan with Personalized Preferences

arxiv url: http://arxiv.org/abs/2502.00858v1
Date: Sun, 02 Feb 2025 17:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.272028
Title: Learning to Plan with Personalized Preferences
Title（参考訳）: パーソナライズされた選好でプランニングを学ぶ
Authors: Manjie Xu, Xinyi Yang, Wei Liang, Chi Zhang, Yixin Zhu,
Abstract要約: PbP(Preference-based Planning)ベンチマークは、原子のアクションから複雑なシーケンスにまたがる数百のさまざまな好みを具現化したベンチマークである。我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。
参考スコア（独自算出の注目度）: 27.972543891602033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective integration of AI agents into daily life requires them to understand and adapt to individual human preferences, particularly in collaborative roles. Although recent studies on embodied intelligence have advanced significantly, they typically adopt generalized approaches that overlook personal preferences in planning. We address this limitation by developing agents that not only learn preferences from few demonstrations but also learn to adapt their planning strategies based on these preferences. Our research leverages the observation that preferences, though implicitly expressed through minimal demonstrations, can generalize across diverse planning scenarios. To systematically evaluate this hypothesis, we introduce Preference-based Planning (PbP) benchmark, an embodied benchmark featuring hundreds of diverse preferences spanning from atomic actions to complex sequences. Our evaluation of SOTA methods reveals that while symbol-based approaches show promise in scalability, significant challenges remain in learning to generate and execute plans that satisfy personalized preferences. We further demonstrate that incorporating learned preferences as intermediate representations in planning significantly improves the agent's ability to construct personalized plans. These findings establish preferences as a valuable abstraction layer for adaptive planning, opening new directions for research in preference-guided plan generation and execution.
Abstract（参考訳）: AIエージェントを日々の生活に効果的に統合するには、特に協力的な役割において、個々の人間の好みを理解し、適応する必要がある。近年の具体的インテリジェンスの研究は著しく進歩しているが、計画における個人の好みを無視する一般化されたアプローチを採用するのが一般的である。この制限に対処するために、少数のデモンストレーションから好みを学習するだけでなく、これらの好みに基づいて計画戦略を適応させるエージェントを開発する。我々の研究は、最小限のデモンストレーションによって暗黙的に表現される嗜好が、様々な計画シナリオにまたがって一般化できるという観察を活用している。この仮説を体系的に評価するために、原子間相互作用から複雑なシーケンスにまたがる数百の多様な嗜好を具現化したベンチマークであるPreference-based Planning (PbP)ベンチマークを導入する。我々のSOTA手法の評価では, シンボルベースのアプローチはスケーラビリティを約束するが, パーソナライズされた好みを満たす計画の生成と実行には大きな課題が残っている。さらに、学習嗜好を中間表現として取り入れることで、エージェントのパーソナライズされた計画構築能力が大幅に向上することを示す。これらの知見は、適応計画のための貴重な抽象化レイヤとして、優先誘導計画の生成と実行に関する新たな研究の方向性を定めている。

関連論文リスト

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文参考訳（メタデータ） (2025-03-13T15:49:56Z)
Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。最適な計画生成のための幅優先探索アルゴリズムを採用している。実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-30T17:57:28Z)
Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文参考訳（メタデータ） (2024-08-02T18:07:53Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文参考訳（メタデータ） (2024-06-18T14:07:28Z)
Large Language Models are Learnable Planners for Long-Term Recommendation [59.167795967630305]
即時利益と長期利益の両方の計画が、勧告においてますます重要になる。既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
論文参考訳（メタデータ） (2024-02-29T13:49:56Z)
Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文参考訳（メタデータ） (2024-01-05T05:28:40Z)
LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文参考訳（メタデータ） (2023-12-26T17:19:09Z)
Interactive Joint Planning for Autonomous Vehicles [19.479300967537675]
対話的な運転シナリオでは、あるエージェントの行動が隣人の行動に大きな影響を及ぼす。本稿では,MPCを学習予測モデルでブリッジする対話型共同計画(Interactive Joint Planning, IJP)を提案する。 IJPは、共同最適化やサンプリングベースの計画を実行することなく、ベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-27T17:48:25Z)
Probabilistic Planning with Partially Ordered Preferences over Temporal Goals [22.77805882908817]
マルコフ決定過程(MDP)における計画計画について,時間的拡張目標よりも優先的に検討した。本稿では、時間的に拡張された目標に対するユーザの好みを特定するために、決定論的有限オートマトンの一種である選好DFAを導入する。構築された多目的MDPにおいて、選好仕様を前提とした弱確率的非支配ポリシーが最適であることを示す。
論文参考訳（メタデータ） (2022-09-25T17:13:24Z)
A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings [41.606112019744174]
本研究では,意思決定時間と背景計画手法の値に基づくバージョンが,異なる設定で相互に比較する方法について検討する。全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の近代的なインスタンス化は,価値ベースの背景計画手法の近代的なインスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
論文参考訳（メタデータ） (2022-06-16T20:48:19Z)
Adaptive Selection of Informative Path Planning Strategies via Reinforcement Learning [6.015556590955814]
ローカルプランニング」アプローチでは,次回のサンプリング場所の優先順位が予測性能や帰路距離に与える影響を調査するために,様々な空間範囲が採用されている。温度モニタリングロボットの使用事例実験により、プランナーの動的混合物は高度な情報プランを生成できるだけでなく、予測信頼性を犠牲にすることなく、大幅に距離を縮めることができることが示された。
論文参考訳（メタデータ） (2021-08-14T21:32:33Z)
A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文参考訳（メタデータ） (2021-06-03T19:35:19Z)
Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文参考訳（メタデータ） (2020-10-26T16:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。