論文の概要: Optimal Interactive Learning on the Job via Facility Location Planning
- arxiv url: http://arxiv.org/abs/2505.00490v1
- Date: Thu, 01 May 2025 12:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.300836
- Title: Optimal Interactive Learning on the Job via Facility Location Planning
- Title(参考訳): 施設配置計画によるジョブの最適対話学習
- Authors: Shivam Vats, Michelle Zhao, Patrick Callaghan, Mingxi Jia, Maxim Likhachev, Oliver Kroemer, George Konidaris,
- Abstract要約: 協調型ロボットは、ユーザを圧倒することなく、新しいタスクやユーザの好みに継続的に適応しなければならない。
タスク列間の人間の労力を最小限に抑えるマルチタスクインタラクションプランナであるCOILを提案する。
我々は,タスク完了を成功させながら,人間に割り当てる作業量を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 33.2668546005654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaborative robots must continually adapt to novel tasks and user preferences without overburdening the user. While prior interactive robot learning methods aim to reduce human effort, they are typically limited to single-task scenarios and are not well-suited for sustained, multi-task collaboration. We propose COIL (Cost-Optimal Interactive Learning) -- a multi-task interaction planner that minimizes human effort across a sequence of tasks by strategically selecting among three query types (skill, preference, and help). When user preferences are known, we formulate COIL as an uncapacitated facility location (UFL) problem, which enables bounded-suboptimal planning in polynomial time using off-the-shelf approximation algorithms. We extend our formulation to handle uncertainty in user preferences by incorporating one-step belief space planning, which uses these approximation algorithms as subroutines to maintain polynomial-time performance. Simulated and physical experiments on manipulation tasks show that our framework significantly reduces the amount of work allocated to the human while maintaining successful task completion.
- Abstract(参考訳): 協調型ロボットは、ユーザを圧倒することなく、新しいタスクやユーザの好みに継続的に適応しなければならない。
従来の対話型ロボット学習手法は、人間の労力を減らすことを目的としていたが、通常はシングルタスクのシナリオに限られており、持続的でマルチタスクのコラボレーションには適していない。
提案するCOIL(Cost-Optimal Interactive Learning)は,3種類のクエリタイプ(スキル,嗜好,支援)を戦略的に選択することで,タスク列間の人間の作業を最小限に抑えるマルチタスクインタラクションプランナである。
ユーザの好みが分かると、COILを非容量施設配置(UFL)問題として定式化し、オフザシェルフ近似アルゴリズムを用いて多項式時間での有界最適計画を可能にする。
我々は,この近似アルゴリズムをサブルーチンとして用い,多項式時間性能を維持する一段階の信念空間計画を導入することで,ユーザの嗜好の不確実性に対処するために,定式化を拡張した。
操作タスクのシミュレーションおよび物理実験により、我々のフレームワークは、タスク完了を成功させながら、人間に割り当てる作業の量を著しく削減することを示した。
関連論文リスト
- Integrating Human Expertise in Continuous Spaces: A Novel Interactive
Bayesian Optimization Framework with Preference Expected Improvement [0.5148939336441986]
Interactive Machine Learning (IML)は、人間の専門知識を機械学習プロセスに統合することを目指している。
ベイズ最適化(BO)に基づく新しいフレームワークを提案する。
BOは機械学習アルゴリズムと人間とのコラボレーションを可能にする。
論文 参考訳(メタデータ) (2024-01-23T11:14:59Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Optimal Cost-Preference Trade-off Planning with Multiple Temporal Tasks [3.655021726150368]
個別のタスクやその関係性よりも好みを表現できる汎用的な枠組みを提供する新しい選好概念を導入する。
我々は,ユーザの好みに従属する行動と,リソース最適である行動の最適トレードオフ(Pareto)分析を行う。
論文 参考訳(メタデータ) (2023-06-22T21:56:49Z) - Optimal task and motion planning and execution for human-robot
multi-agent systems in dynamic environments [54.39292848359306]
本稿では,タスクのシーケンシング,割り当て,実行を最適化するタスクと動作計画の組み合わせを提案する。
このフレームワークはタスクとアクションの分離に依存しており、アクションはシンボル的タスクの幾何学的実現の可能な1つの可能性である。
ロボットアームと人間の作業員がモザイクを組み立てる共同製造シナリオにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-27T01:50:45Z) - Learning Coordination Policies over Heterogeneous Graphs for Human-Robot
Teams via Recurrent Neural Schedule Propagation [0.0]
HybridNetは、人間のロボットチームをスケジューリングするためのディープラーニングベースのフレームワークである。
マルチラウンド環境で混在するロボットチームのための仮想スケジューリング環境を開発する。
論文 参考訳(メタデータ) (2023-01-30T20:42:06Z) - A Constrained-Optimization Approach to the Execution of Prioritized
Stacks of Learned Multi-Robot Tasks [8.246642769626767]
このフレームワークはバリュー関数でエンコードされたタスクの実行に自らを頼っている。
提案手法は,協調型マルチロボットタスクを実行する移動ロボットチームを用いてシミュレーションを行った。
論文 参考訳(メタデータ) (2023-01-13T01:04:59Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。