論文の概要: Octo-planner: On-device Language Model for Planner-Action Agents
- arxiv url: http://arxiv.org/abs/2406.18082v1
- Date: Wed, 26 Jun 2024 05:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:28:34.646942
- Title: Octo-planner: On-device Language Model for Planner-Action Agents
- Title(参考訳): Octo-planner:Planner-Action Agentのオンデバイス言語モデル
- Authors: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen,
- Abstract要約: Planner-Actionフレームワークは、計画とアクションの実行を2つの異なるコンポーネントに分離する。
Agentはまず、タスクをサブステップのシーケンスに分解してユーザクエリに応答し、アクションエージェントによって実行される。
我々は、文脈内学習の代わりにモデル微調整を採用し、計算コストとエネルギー消費を削減した。
- 参考スコア(独自算出の注目度): 19.627197141903505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents have become increasingly significant in various domains, enabling autonomous decision-making and problem-solving. To function effectively, these agents require a planning process that determines the best course of action and then executes the planned actions. In this paper, we present an efficient on-device Planner-Action framework that separates planning and action execution into two distinct components: a planner agent based on Phi-3 Mini, a 3.8 billion parameter LLM optimized for edge devices, and an action agent using the Octopus model for function execution. The planner agent first responds to user queries by decomposing tasks into a sequence of sub-steps, which are then executed by the action agent. To optimize performance on resource-constrained devices, we employ model fine-tuning instead of in-context learning, reducing computational costs and energy consumption while improving response times. Our approach involves using GPT-4 to generate diverse planning queries and responses based on available functions, with subsequent validations to ensure data quality. We fine-tune the Phi-3 Mini model on this curated dataset, achieving a 97\% success rate in our in-domain test environment. To address multi-domain planning challenges, we developed a multi-LoRA training method that merges weights from LoRAs trained on distinct function subsets. This approach enables flexible handling of complex, multi-domain queries while maintaining computational efficiency on resource-constrained devices. To support further research, we have open-sourced our model weights at \url{https://huggingface.co/NexaAIDev/octopus-planning}. For the demo, please refer to \url{https://www.nexa4ai.com/octo-planner}.
- Abstract(参考訳): AIエージェントは、自律的な意思決定と問題解決を可能にする、さまざまな領域でますます重要になっている。
効果的に機能するためには、これらのエージェントは最高の行動経路を決定し、計画された行動を実行する計画プロセスを必要とする。
本稿では,Phi-3 Miniをベースとしたプランナエージェント,エッジデバイスに最適化された380億のパラメータLSM,関数実行のためのOctopusモデルを用いたアクションエージェントという,計画と行動実行を分離する効率的なオンデバイス・プランナ・アクション・フレームワークを提案する。
プランナーエージェントは、まずタスクを一連のサブステップに分解してユーザクエリに応答し、アクションエージェントによって実行される。
資源制約のあるデバイスの性能を最適化するために、本研究では、文脈内学習の代わりにモデル微調整を採用し、応答時間を改善しながら計算コストとエネルギー消費を削減した。
提案手法では,GPT-4を用いて利用可能な関数に基づいて多様なクエリや応答を生成し,次にデータ品質を保証するための検証を行う。
我々は、このキュレートされたデータセット上でPhi-3 Miniモデルを微調整し、ドメイン内テスト環境で97倍の成功率を達成した。
マルチドメイン計画問題に対処するために,異なる関数サブセットに基づいて訓練されたLoRAから重みをマージするマルチLoRAトレーニング手法を開発した。
このアプローチは、リソース制約されたデバイス上での計算効率を維持しながら、複雑なマルチドメインクエリの柔軟な処理を可能にする。
さらなる研究を支援するため、我々はモデルウェイトを \url{https://huggingface.co/NexaAIDev/octopus-planning} でオープンソース化しました。
デモについては \url{https://www.nexa4ai.com/octo-planner} を参照してください。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies [25.512068008948603]
MATCH POLICYは、高精度なピックと配置タスクを解決するパイプラインである。
アクション推論をポイントクラウド登録タスクに転送する。
非常に高いサンプル効率と、目に見えない構成への一般化性を実現する。
論文 参考訳(メタデータ) (2024-09-23T20:09:43Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - A Unified and Efficient Coordinating Framework for Autonomous DBMS
Tuning [34.85351481228439]
既存のMLベースのエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。
機械学習ベースのエージェントを効果的に利用し、ワークロードの実行時間に1.414.1Xのスピードアップでより良い設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-03-10T05:27:23Z) - Adaptive Sampling using POMDPs with Domain-Specific Considerations [9.670635276589248]
適応サンプリング問題に対するモンテカルロ木探索に基づく解法の改良について検討する。
本稿では,ロールアウトアロケーション,アクション探索アルゴリズム,計画コミットメントの改善を提案する。
一つの計画木から取られたアクションの数を増やすことにより,ロールアウト回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-23T19:00:02Z) - Scalable Anytime Planning for Multi-Agent MDPs [37.69939216970677]
動的協調を必要とする大規模マルチエージェント連続的決定問題に対するスケーラブルな木探索計画アルゴリズムを提案する。
提案アルゴリズムは,モンテカルロ木探索 (MCTS) を用いたオンライン計画,協調グラフを用いた局所エージェント相互作用の因子表現,および協調行動選択のための反復マックスプラス法からなる。
論文 参考訳(メタデータ) (2021-01-12T22:50:17Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。