論文の概要: AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots
- arxiv url: http://arxiv.org/abs/2409.11905v1
- Date: Wed, 18 Sep 2024 12:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:50:39.178554
- Title: AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots
- Title(参考訳): AlignBot: 家庭用ロボットのファインチューニングによるユーザリマインダーによるVLMによるカスタマイズタスク計画の調整
- Authors: Zhaxizhuoma, Pengan Chen, Ziniu Wu, Jiawei Sun, Dong Wang, Peng Zhou, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li,
- Abstract要約: AlignBotはVLMを使った家庭用ロボットのタスクプランニングを最適化する新しいフレームワークである。
国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
- 参考スコア(独自算出の注目度): 44.47999496605951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents AlignBot, a novel framework designed to optimize VLM-powered customized task planning for household robots by effectively aligning with user reminders. In domestic settings, aligning task planning with user reminders poses significant challenges due to the limited quantity, diversity, and multimodal nature of the reminders. To address these challenges, AlignBot employs a fine-tuned LLaVA-7B model, functioning as an adapter for GPT-4o. This adapter model internalizes diverse forms of user reminders-such as personalized preferences, corrective guidance, and contextual assistance-into structured instruction-formatted cues that prompt GPT-4o in generating customized task plans. Additionally, AlignBot integrates a dynamic retrieval mechanism that selects task-relevant historical successes as prompts for GPT-4o, further enhancing task planning accuracy. To validate the effectiveness of AlignBot, experiments are conducted in real-world household environments, which are constructed within the laboratory to replicate typical household settings. A multimodal dataset with over 1,500 entries derived from volunteer reminders is used for training and evaluation. The results demonstrate that AlignBot significantly improves customized task planning, outperforming existing LLM- and VLM-powered planners by interpreting and aligning with user reminders, achieving 86.8% success rate compared to the vanilla GPT-4o baseline at 21.6%, reflecting a 65% improvement and over four times greater effectiveness. Supplementary materials are available at: https://yding25.com/AlignBot/
- Abstract(参考訳): 本稿では,ユーザのリマインダーを効果的に整合させて,VLMを活用した家庭用ロボットのタスクプランニングを最適化する新しいフレームワークであるAlignBotを提案する。
国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。
これらの課題に対処するため、AlignBotは細調整のLLaVA-7Bモデルを採用し、GPT-4oのアダプタとして機能している。
このアダプタモデルは、パーソナライズされた嗜好、修正ガイダンス、構造化された命令形式キューへのコンテキスト支援などの多様なユーザリマインダーを内在化し、カスタマイズされたタスクプランを生成するための GPT-4o を誘導する。
さらに、AlignBotは、タスク関連過去の成功をGPT-4oのプロンプトとして選択する動的検索機構を統合し、タスク計画の精度をさらに高める。
AlignBotの有効性を検証するために、実験室内で典型的な家庭用環境を再現するために構築された実世界の家庭用環境において実験が行われる。
ボランティアリマインダーから1500以上のエントリを抽出したマルチモーダルデータセットをトレーニングと評価に使用する。
その結果、AlignBotはカスタマイズされたタスク計画を大幅に改善し、ユーザリマインダーを解釈・整合させ、バニラ GPT-4o ベースラインの 21.6% に対して86.8% の成功率を実現し、既存の LLM- と VLM のプランナーを上回り、65% の改善と 4 倍以上の有効性を反映した。
追加資料は、https://yding25.com/AlignBot/.comで入手できる。
関連論文リスト
- SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models [24.22168861692322]
等価投票、制約付き復号化、ドメイン固有の微調整という3つの重要な洞察を提示する。
等価投票は、複数の線形時間論理(LTL)式の生成とサンプリングによって一貫性を保証する。
制約付き復号法は生成された公式を使って計画の自動回帰推論を実行する。
ドメイン固有の微調整は、特定のタスクドメイン内で安全で効率的なプランを生成するために、LSMをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-28T22:33:44Z) - Enhancing Supermarket Robot Interaction: A Multi-Level LLM Conversational Interface for Handling Diverse Customer Intents [46.623273455512106]
本稿では,スーパーマーケットロボットのためのマルチレベルLLMインタフェースの設計と評価について述べる。
本手法を, GPT-4 Turbo を用いた特殊な GPT モデルと比較する。
パフォーマンス,ユーザ満足度,ユーザエージェントパートナーシップ,自己イメージ向上の4分野において,統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-06-16T19:13:01Z) - Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V [38.80155683176581]
オープン環境における自律型ロボットナビゲーションと操作のための,最初のクローズドループフレームワークであるCOME-robotを紹介する。
我々は,ロボット探索,ナビゲーション,操作のためのアクションプリミティブのライブラリを慎重に構築し,タスク計画におけるGPT-4Vの呼び出し可能な実行モジュールとして機能する。
我々は,COME-robotの設計が障害復旧,後続のフリーフォーム命令,長期タスクプランニングをいかに促進するかを明らかにするために,包括的解析を行う。
論文 参考訳(メタデータ) (2024-04-16T02:01:56Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation [8.158152532619576]
本稿では,ヒューマンライクなアプリメモリを備えたモバイルタスク・オートマトンであるMobileGPTを紹介する。
MobileGPTは、モバイルアプリと対話する人間の認知プロセスをエミュレートする。
我々は,オンラインLLMサービス(GPT-3.5およびGPT-4)を用いてMobileGPTを実装し,その性能を18のモバイルアプリで185タスクのデータセット上で評価した。
論文 参考訳(メタデータ) (2023-12-04T06:13:35Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - GAT: Guided Adversarial Training with Pareto-optimal Auxiliary Tasks [73.88590165742721]
本稿では,限られた訓練データの下で補助的なタスクを活用する新しい対人訓練手法を提案する。
本手法は, 対戦学習の最小値最適化において, シングルタスクモデルをマルチタスクモデルに拡張する。
我々は、ガイド付きマルチタスク学習が、モデルロバスト性の境界をさらに推し進めるために、実践的で有望な方法であることを実証する。
論文 参考訳(メタデータ) (2023-02-06T16:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。